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前 言 


随 着 信息 技术 的 高 速 发 展 ,数据 量 的 积累 急剧 增长 ,数据 挖掘 是 为 顺应 这 种 需要 而 发 展 
起 来 的 数据 处 理 技术 ,是 知识 发 现 (Knowledge Discovery in Database) 的 关键 步骤 。 数 据 挖 
掘 涉及 比较 多 的 数学 基础 知识 ,如 何 深 入 浅 出 地 将 这 些 知识 及 其 应 用 方法 介绍 给 学 生 是 编 
写 数据 挖掘 教材 的 关键 所 在 。 

为 此 ,本 书 在 编写 时 力求 突出 以 下 特征 : 

(1) 采用 尽 可 能 浅显 易 懂 的 语言 表达 知识 内 容 ; 

(2) 理论 与 实际 相 结合 ,概念 和 方法 相 结合 ,使 知识 具体 化 ,实用 化 ; 

(3) 实例 是 通过 数据 挖掘 软件 SQL Server 2005 完成 的 ; 

(4) 每 章 最 后 结合 实例 ,理论 联系 实际 ,帮助 学 生 达 到 学 以 致 用 的 效果 。 

本 书 共 11 章 , 包 括 4 个 主要 部 分 ,具体 内 容 如 下 。 

第 一 部 分 : 第 1 章 为 数据 挖掘 和 数据 仓库 概述 ,简要 介绍 了 数据 挖掘 和 数据 仓库 的 发 
展 趋势 .基本 概念 等 相关 知识 。 

第 二 部 分 : 第 2 章 和 第 3 章 详 细 介 绍 了 数据 仓库 的 基本 概念 ,相关 知识 ,以 及 联机 分 析 
处 理 技术 的 基本 方法 和 实例 的 具体 实现 。 

第 三 部 分 : 第 4 章 一 第 10 章 详细 介绍 了 关联 规则 方法 .决策 树 方法 .统计 学 习 方法 、 神 
经 网 络 方法 、. 聚 类 分 析 、 粗 糙 集 方法 等 方法 的 相关 知识 和 实例 的 具体 实现 。 

第 四 部 分 : 第 11 章 介绍 了 一 些 复 杂 结 构 的 数据 挖掘 以 及 数据 挖掘 的 发 展 。 

本 书 的 亮点 为 ,每 章 的 最 后 一 节 都 是 本 章 理论 方法 的 一 个 具体 实现 ,便于 读者 深入 掌 
握 。 读 者 可 以 根据 自己 的 需要 选择 学 习 相 关内 容 。 本 书 可 以 作为 计算 机 类 、 信 息 类 等 相关 
专业 本 科 生 数据 挖掘 课程 的 教材 ,也 可 以 作为 其 他 专业 技术 人 员 的 自学 参考 书 。 

信息 处 理 技术 是 信息 科学 .应 用 数学 发 展 的 一 个 重要 分 支 , 在 教学 中 ,主要 通过 理论 教 
学 、 实 验 教 学 .课程 设计 等 教学 环节 来 提高 学 生 的 实践 技能 和 应 用 水 平 , 这 样 的 教学 方法 也 
是 天 津 职业 技术 师范 大 学 长 期 为 社会 培养 高 素质 职 教师 资 和 应 用 型 高 级 专门 人 才 过 程 中 总 
结 出 来 的 一 种 行 之 有 效 的 教学 方法 。 为 了 使 理论 和 实际 相 结 合 , 使 基本 概念 和 知识 与 具体 
的 方法 、 工 具 相 结合 ,达到 学 以 致 用 的 效果 ,体现 应 用 型 大 学 手 脑 并 用 的 办 学 理念 ,作者 还 特 
别 编写 了 一 本 与 本 教材 相配 合 使 用 的 (数据 仓库 与 数据 挖掘 工程 实例 ) 辅 助教 材 , 该 教材 共 
包括 10 个 工程 案例 ,介绍 了 利用 数据 挖掘 与 数据 仓库 工具 如 何 建立 数据 仓库 、 如 何 进行 数 
据 预 处 理 和 进行 数据 挖掘 等 ,目的 就 是 希望 通过 通俗 易 懂 的 语言 和 详细 的 工程 实例 分 析 , 使 
学 生 能 够 较 好 地 掌握 数据 挖掘 与 数据 仓库 的 理论 知识 和 构建 模型 的 操作 过 程 ,进一步 提高 
学 生 对 信息 进行 管理 和 利用 的 能 力 。 

本 书 由 张 兴 会 统 稿 , 王 明 春 、 郑 晓 艳 、 刘 玲 、 刘 新 钰 、 童 勇 木 参加 了 本 书 的 编写 .图 表 绘 

困 | 区 


制 .模型 构建 .软件 调试 等 工作 。 在 本 书 编写 过 程 中 , 安 淑 芝 教授 提出 了 宝贵 的 修改 意见 。 
另外 ,本 书 还 参阅 和 引用 了 许多 专家 和 学 者 的 文献 资料 ,在 此 表示 衷心 的 感谢 。 

由 于 作者 水 平和 能 力 有 限 ,新 技术 的 发 展 和 更 新 较 快 , 书 中 的 不 妥 之 处 ,欢迎 读者 批评 
指正 。 作 者 邮箱 : xhzhang@tute. edu. cn。 
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第 1 章 数据 挖掘 和 数据 仓库 概述 


随 着 计算 机 技术 和 网 络 技 术 的 发 展 ,数据 量 急剧 增长 。 人 类 处 于 信息 爆炸 的 时 代 , 被 淹 
没 在 数据 海洋 之 中 。 如 何 有 效 地 组 织 和 存储 数据 ,如 何 从 数据 海洋 中 及 时 发 现 有 用 的 知识 、 
提高 信息 利用 率 ,成 为 人 们 吸 待 解决 的 问题 。 但 是 , 仅 以 目前 数据 库 系 统 的 录入 、 查 询 ,统计 
等 功能 ,无 法 发 现 数据 中 存在 的 关系 和 规则 ,无 法 根据 现 有 的 数据 预测 未 来 的 发 展 趋势 。 正 
是 在 这 样 的 背景 下 ,数据 挖掘 (data mining, DM) 技 术 应 运 而 生 , 并 越 来 越 显 示 出 强大 的 生 
命 力 。 

数据 挖掘 技术 的 发 展 催生 决策 分 析 数 据 环境 的 改变 ,而 传统 的 数据 库 管理 系统 因 自 身 
的 局 限 性 无 法 满足 决策 支持 系统 的 要 求 ,具体 表现 为 : 不 能 满足 数据 成 几何 级 数 增长 的 需 
要 ,不 同 部 分 的 数据 难以 集成 ,访问 数据 的 响应 性 能 不 断 降低 。 要 想 使 数据 能 够 发 挥 其 最 佳 
效用 ,更 好 地 为 用 户 服务 ,数据 必须 经 过 严格 的 准备 .组织 和 显示 等 步骤 。 因 此 ,一 种 适用 于 
决策 支持 系统 的 数据 组 织 与 管理 技术 一 一 数据 仓库 (data warehouse, DW) 技 术 应 运 而 生 ， 
并 逐渐 成 为 支持 分 析 与 决策 的 重要 技术 。 


1.1 数据 挖掘 引 论 


1.1.1 数据 挖掘 的 由 来 


数据 挖掘 经 历 了 逐渐 演变 的 过 程 。 在 电子 化 数据 处 理 的 初期 ,人 们 就 试图 通过 某 些 方 
法 实现 自动 决策 支持 ,于 是 机 器 学 习 成 为 关注 的 焦点 。 机 器 学 习 的 过 程 就 是 将 一 些 已 知 的 
并 已 被 成 功 解决 的 问题 作为 范例 输入 计算 机 ,机 器 通过 学 习 这 些 范例 ,总 结 并 生成 相应 的 规 
则 ,这些 规则 具有 通用 性 ,使 用 它们 可 以 解决 某 一 类 问题 。 机 器 学 习 的 研究 最 早 始 于 20 世 
纪 60 年 代 , 比 较 典 型 的 结果 有 Rosenblate 的 感知 机 、Sammel 的 西洋 跳棋 程序 。 

随 着 神经 网 络 等 技术 的 形成 和 发 展 , 人 们 的 注意 力 逐 渐 转 向 知识 工程 。 知 识 工程 不 同 
于 机 器 学 习 , 不 是 为 计算 机 输入 范例 ,由 其 生成 出 规则 ,而 是 直接 为 计算 机 输入 已 被 代码 化 
的 规则 ,计算 机 通过 使 用 这 些 规则 来 解决 某 些 问题 ,如 专家 系统 就 是 这 种 方法 所 得 到 的 
成 果 。 

20 世纪 80 年 代 , 在 新 的 神经 网 络 等 理论 的 指导 下 ,重新 回 到 机 器 学 习 的 方法 上 ,并 将 
其 成 果 应 用 于 处 理 大 型 商业 数据 库 , 如 Michelski 等 人 的 AQ11 系统 (1980 年 ) .Quiulan 的 
ID3(1983 年 ) 决 策 树 方法 .Rumelhart 等 人 研制 的 反 向 传播 神经 网 络 BP 模型 (1985 年 )、 
Langley 等 人 的 BACON 系统 (1987 年 ) 等 ,这 些 显 著 成 果 的 出 现 , 使 机 器 学 习 逐 渐 成 为 人 工 
智能 的 主要 学 科 方 向 之 一 。 

1989 年 ,在 美国 底特律 召开 的 第 十 一 届 国 际 联合 人 工 智 能 学 术 会 议 上 首次 提 到 知识 发 
现 (knowledge discovery in database, KDD) 这 一 概念 ;1993 年 ,美国 电气 电子 工程 师 学 会 
(IEEE) 的 知识 与 数据 工程 (knowledge and data engineering) 会 刊 出 版 TKDD 技术 专刊 ,发 
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表 的 论文 和 摘要 体现 了 当时 知识 发 现 的 最 新 研究 成 果 和 动态 。 

随 着 来 自 各 个 领域 的 研究 和 应 用 开发 不 断 增多 ,1995 年 ,在 加 拿 大 蒙特 利 尔 召开 了 首 
届 KDD 国际 学 术 年 会 ,数据 挖掘 技术 被 分 为 工程 领域 的 数据 挖掘 与 科研 领域 的 知识 发 现 。 
由 于 把 数据 库 中 的 “数据 ”形象 地 比喻 为 矿床 ,“ 数 据 挖掘 ”一 词 很 快 流传 开 来 。 此 后 ,此 类 会 
议 每 年 召开 一 次 ,数量 和 规模 逐渐 扩大 ,从 专题 研讨 会 一 直 发 展 到 国际 学 术 大 会 ,并 成 为 当 
前 计算 机 领域 的 研究 热点 。 目 前 ,对 KDD 的 研究 主要 围绕 理论 ,技术 和 应 用 这 三 个 方面 
展开 。 


1.1.2 数据 挖掘 的 定义 


数据 挖掘 就 是 从 大 量 的 \ 不 完全 的 \ 有 噪声 的 、 模 糊 的 、 随 机 的 数据 中 ,提取 隐 含 在 其 中 
的 ,人们 事先 不 知道 的 ,但 又 是 潜在 有 用 的 信息 和 知识 的 过 程 。 数 据 挖掘 应 该 更 正确 地 命名 
为 "从 数据 中 挖掘 知识 ”"。 还 有 很 多 和 这 一 术语 相似 的 术语 ,如 知识 发 现 . 数 据 分 析 、 数 据 融 
合 以 及 决策 支持 等 。 人 工 智 能 领域 习惯 称 之 为 知识 发 现 , 而 数据 库 领 域 习惯 称 之 为 数据 
挖掘。 

用 于 数据 挖掘 的 原始 数据 可 以 是 结构 化 的 ,如 关系 数据 库 中 的 数据 ;也 可 以 是 半 结 构 化 
的 ,如 文本 、 图 形 、 图 像 数 据 等 。 数 据 挖掘 的 方法 可 以 是 数学 的 ,也 可 以 是 非 数 学 的 ;可 以 是 
演绎 的 ,也 可 以 是 归纳 的 。 挖 掘 出 的 知识 可 以 被 用 于 信息 管理 ,查询 优化 决策 支持 .过 程控 
制 等 ;还 可 以 用 于 数据 自身 的 维护 。 

数据 挖掘 是 一 个 完整 的 过 程 ,其 一 般 步骤 如 图 1-1 所 示 。 
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图 +1 数据 挖掘 的 过 程 


1. 确定 业务 对 象 

在 开始 数据 挖掘 之 前 ,最 基础 的 就 是 理解 数据 和 实际 的 业务 ,在 这 个 基础 上 提出 问题 ， 
对 目标 有 明确 的 定义 。 认 清 数据 挖掘 的 目的 是 数据 挖掘 的 重要 一 步 ,因此 必须 清晰 地 定义 
出 业务 对 象 。 

2. 数据 准备 

数据 准备 是 保证 数据 挖掘 得 以 成 功 的 先决 条 件 , 数 据 准备 在 整个 数据 挖掘 过 程 中 占有 
很 大 的 工作 量 ,大 约 是 整个 数据 挖掘 工作 量 的 60%。 数 据 准 备 包括 数据 选择 、 数 据 预 处 理 
和 数据 转换 。 

(1) 数据 选择 。 就 是 搜索 所 有 与 业务 对 象 有 关 的 内 部 和 外 部 数据 信息 ,获取 原始 的 数 
据 , 从 中 选择 出 适用 于 数据 挖掘 应 用 的 数据 ,建立 数据 挖掘 库 。 

(2) 数据 预 处 理 。 由 于 数据 可 能 是 不 完全 的 ` 有 了 噪声 的 、 随 机 的 .复杂 的 ,数据 预 处 理 就 
要 对 数据 进行 初步 的 整理 ,清洗 不 完全 的 数据 ,为 进一步 的 分 析 作 准备 。 

(3) 数据 转换 。 数 据 转 换 是 构建 面向 分 析 的 数据 存储 模式 的 关键 ,在 转换 过 程 中 数据 
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会 被 格式 化 ,并 加 载 到 适合 分 析 的 存储 环境 中 。 人 常见 的 数据 转换 问题 包括 : 数据 类 型 转换 、 
对 象 名 转换 ,数据 编码 转换 、 表 结构 转换 。 

3. 数据 挖掘 

数据 挖掘 就 是 对 所 得 到 的 经 过 转换 的 数据 进行 挖掘 ,除了 选择 合适 的 挖掘 算法 外 ,其 余 
工作 应 能 自动 地 完成 。 

4. 结果 分 析 与 知识 同化 

结果 分 析 就 是 对 挖掘 结果 进行 解释 并 评估 ,其 使 用 的 分 析 方 法 一 般 应 根据 数据 挖掘 操 
作 而 定 , 目 前 通常 应 用 可 视 化 技术 。 知 识 同化 就 是 将 分 析 所 得 到 的 知识 集成 到 业务 信息 系 
统 的 组 织 结构 中 去 。 


1.1.3 数据 挖掘 的 功能 


数据 挖掘 具体 功能 主要 有 以 下 几 个 方面 。 

1. 概念 描述 

概念 描述 (concept description) ,就 是 对 某 类 对 象 的 内 涵 进 行 描述 ,并 概括 这 类 对 象 的 
有 关 特 征 。 具 体 的 描述 分 为 特征 性 (characterization) 描 述 和 区 别 性 (discrimination) 描 述 。 
前 者 用 于 描述 某 类 对 象 的 共同 特征 ,后 者 用 于 描述 不 同类 对 象 之 间 的 区 别 。 

描述 数据 允许 数据 在 多 个 抽象 层 概 化 ,便于 用 户 考 察 数据 的 一 般 行为 。 

2. 关联 分 析 

数据 关联 是 数据 中 存在 的 一 类 重要 的 可 被 发 现 的 知识 , 若 两 个 或 多 个 变量 间 存 在 着 某 
种 规律 性 ,就 称 为 关联 。 关 联 可 分 为 简单 关联 .时 序 关联 .因果 关联 。 关 联 分 析 (association 
analysis) 是 从 大 量 的 数据 中 发 现 项 集 之 间 有 趣 的 联系 、 相 关 关 系 或 因果 结构 ,以 及 项 集 的 频 

3. 分 类 与 预测 

(1) 分 类 (classification) 。 分 类 是 数据 挖掘 中 的 一 项 非常 重要 的 任务 。 分 类 的 目的 是 
提出 一 个 分 类 函数 或 者 分 类 模型 ,该 模型 能 把 数据 库 中 的 数据 项 映射 到 给 定 类 别 中 的 一 个 。 
构造 分 类 器 ,需要 有 一 个 训练 样本 数据 集 作 为 输入 。 

(2) 预测 (prediction) 。 预 测 是 利用 历史 数据 建立 模型 ,再 运用 最 新 数据 作为 输入 值 ， 
获得 未 来 变化 的 趋势 或 者 评估 给 定 样 本 可 能 具有 的 属性 值 或 值 的 范围 。 

4. 聚 类 分 析 

(1) 聚 类 (clustering)。 聚 类 是 根据 数据 的 不 同 特 征 ,将 其 划分 为 不 同 的 数据 类 。 其 目 
的 是 使 得 属于 同一 类 别 的 个 体 之 间 的 距离 尽 可 能 小 ,而 不 同类 别 的 个 体 间 的 距离 尽 可 能 大 。 

(2) 聚 类 与 分 类 的 区 别 如 下 : 分 类 需要 预先 定义 类 别 和 训练 样本 ;而 聚 类 分 析 直 接 面 
向 源 数据 ,没有 预先 定义 好 的 类 别 和 训练 样本 ,所 有 记录 都 根据 彼此 相似 程度 加 以 归 类 。 

5. 偏差 分 析 

偏差 分 析 (deviation analysis) 又 称 为 比较 分 析 , 是 对 差异 和 极端 特例 的 描述 ,揭示 事 
物 偏离 常规 的 异常 现象 ,其 基本 思想 是 寻找 观测 结果 与 参照 值 之 间 有 意义 的 差别 。 偏 差 
包括 分 类 中 的 反常 实例 .不 满足 规则 的 特例 、 观 测 结果 对 模型 预测 的 偏差 . 量 值 随时 间 的 


1.1.4 数据 挖掘 的 常用 方法 


1. 聚 类 分 析 

聚 类 分 析 (clustering analysis) 是 一 个 比较 活跃 的 数据 挖掘 研究 领域 , 源 于 统计 学 .生物 
学 以 及 机 器 学 习 等 。 聚 类 生成 的 组 叫 簇 , 簇 是 数据 对 象 的 集合 。 聚 类 分 析 的 过 程 就 是 使 同 
一 个 簇 内 的 任意 两 个 对 象 之 间 具 有 和 较 高 的 相似 性 ,不 同 簇 的 两 个 对 象 之 间 具 有 和 较 高 的 相 
异性 。 

用 于 数据 挖掘 的 聚 类 分 析 有 划分 的 方法 .层次 的 方法 .基于 密度 的 方法 .基于 网 格 的 方 
法 和 基于 模型 的 方法 等 。 

2. 决策 树 

决策 树 (decision tree) 主 要 应 用 于 分 类 和 预测 ,提供 了 一 种 展示 类 似 在 什么 条 件 下 会 得 
到 什么 值 这 类 规则 的 方法 。 决 策 树 分 为 分 类 树 和 回归 树 两 种 ,分 类 树 对 离散 变量 做 决策 , 回 
归 树 对 连续 变量 做 决策 。 

决策 树 是 一 个 类 似 于 流程 图 的 树 结构 , 树 的 最 顶层 结 点 是 根 结 点 ,中 间 的 结 点 是 内 部 结 
点 ,末梢 的 结 点 是 叶 结 点 ,其 中 根 结 点 是 整个 数据 集合 空间 ,每 个 内 部 结 点 表示 在 一 个 属性 
上 的 测试 ,每 个 分 支 代表 一 个 测试 输出 ,每 个 叶 结 点 代表 类 或 类 分 布 。 

建立 决策 树 的 过 程 , 即 树 的 生长 过 程 是 不 断 地 把 数据 进行 切 分 的 过 程 ,每 次 切 分 对 应 一 
个 问题 ,也 对 应 着 一 个 结 点 。 对 每 个 切 分 都 要 求 分 成 的 组 之 间 的 “差异 ”最 大 。 各 种 决策 树 
算法 之 间 的 主要 区 别 是 “差异 ”衡量 方式 的 区 别 。 数 据 挖掘 中 决策 树 是 一 种 经 常用 到 的 技 
术 ,常用 的 算法 有 CHAID .CART Quest\ID3 和 C4.5 等 。 

3. 人 工 神经 网 络 

人 工 神 经 网 络 (artificial neural network.ANN) 是 一 类 比较 新 的 计算 模型 , 它 是 模仿 人 
脑 神经 网 络 的 结构 和 某 些 工作 机 制 而 建立 的 一 种 计算 模型 。 这 种 计算 模型 的 特点 是 利用 大 
量 的 简单 计算 单元 ( 即 神经 元 ) 连 成 网 络 ,来 实现 大 规模 并 行 计算 。 神 经 网 络 的 工作 机 理 是 
通过 学 习 , 来 改变 神经 元 之 间 的 连接 强度 。 由 于 人 工 神经 网 络 具 有 自我 组 织 和 自我 学 习 等 
特点 ,能 解决 许多 其 他 方法 难以 解决 的 问题 ,因此 得 到 较 普遍 的 应 用 。 

人 工 神经 网 络 主要 有 前 馈 式 网 络 \ 反 馈 式 网 络 和 自 组 织 网 络 。 

4. 粗糙 集 

粗糙 集 (rough set) 是 一 种 处 理 不 确定 不 完备 数据 和 不 精确 问题 的 新 的 数学 理论 。 粗 
糙 集 理论 建立 在 分 类 机 制 的 基础 上 ,将 知识 理解 为 对 数据 的 划分 ,并 引入 上 近似 Cupper 
approximation) 和 下 近似 (lower approximation) 等 概念 来 刻画 知识 的 不 确定 性 和 模糊 性 。 
模糊 集 和 概率 统计 方法 是 处 理 不 确定 信息 的 常用 方法 ,但 这 些 方 法 需要 一 些 数据 的 附加 信 
息 或 先 验 知识 ,如 模糊 隶属 函数 和 概率 分 布 等 ,这 些 信 息 有 时 并 不 容易 得 到 。 粗 糙 集 分 析 方 
法 仅 利用 数据 本 身 提供 的 信息 ,无 须 任何 先 验 知识 。 

5. 关联 规则 挖掘 

关联 规则 挖掘 (association rule mining) 是 数据 挖掘 中 最 活跃 的 研究 方法 之 一 ,最 早 由 
Agrawal 等 人 提出 (1993 年 )。 最 初 的 动机 是 针对 购物 篮 分 析 问 题 提 出 的 ,其 目的 是 发 现 交 
易 数据 库 中 不 同 商品 (项 ) 之 间 的 联系 ,由 这 些 规则 找 出 顾客 购买 行为 模式 ,如 购买 了 某 一 商 
品 对 购买 其 他 商品 的 影响 。 发 现 这 样 的 规则 可 以 应 用 于 商品 货架 设计 、 库 存 安排 以 及 根据 
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购买 模式 对 用 户 进行 分 类 。 

关联 规则 的 基本 思想 : 一 是 找到 所 有 支持 度 大 于 最 小 支持 度 的 频繁 项 集 , 即 频 集 ;二 是 
使 用 第 一 步 找到 的 频 集 产生 期 望 的 规则 。 其 核心 方法 是 基于 频 集 理论 的 递 推 方法 。 关 联 规 
则 挖掘 的 主要 算法 包含 关联 发 现 、 序 列 模式 发 现 、 时 序 发 现 等 。 

6. 统计 分 析 

统计 分 析 (statistics analysis) 是 从 事物 的 外 在 数量 上 的 表现 去 推断 该 事物 可 能 的 规律 。 
科学 的 规律 性 一 般 总 是 隐藏 得 比较 深 ,最 初 总 是 从 其 数量 表现 上 通过 统计 分 析 看 出 一 些 线 
索 , 然 后 提出 一 定 的 假说 或 学 说 ,做 进一步 深入 的 理论 研究 。 当 理论 研究 提出 一 定 的 结论 
时 ,往往 还 需要 在 实践 中 加 以 验证 , 即 观测 一 些 自然 现象 或 专门 安排 的 实验 所 得 资料 是 否 与 
理论 相符 ,在 多 大 程度 上 相符 ,偏离 可 能 是 朝 哪个 方向 ,等 等 。 

常见 的 统计 分 析 有 回归 分 析 ( 多 元 回归 、 自 回归 )、 判 别 分 析 ( 贝 叶 斯 判别 、 费 吹 尔 判别 、 
非 参 数 判别 ) 以 及 探索 性 分 析 ( 主 元 分 析 、 相 关 分 析 ) 等 。 


1.2 数据 仓库 引 论 


1.2.1 数据 仓库 的 产生 与 发 展 


随 着 市 场 竞 争 的 日 趋 激烈 ,信息 对 企业 的 生存 发展 .壮大 起 着 越 来 越 重要 的 作用 。 由 
于 计算 机 技术 的 普遍 应 用 ,承载 信息 的 数据 随 着 时 间 的 推移 而 不 断 增 长 ,并 且 分 布 在 不 同 的 
系统 平台 上 ,具有 多 种 存储 形式 。 能 否 从 纷繁 复杂 、 大 量 沉淀 的 数据 环境 中 得 到 有 用 的 决策 
信息 ,已 成 为 企业 生存 发展. 壮大 的 重要 环节 。 

基于 上 述 的 需求 ,在 20 世纪 80 年 代 出 现 了 数据 仓库 的 思想 。1988 年 ,为 解决 全 企业 
集成 问题 ,IBM 爱尔兰 公司 的 Barry Devlin 和 Paul Murphy 第 一 次 提出 了 “信息 仓库 ”的 概 
念 ,其 定义 为 :“ 一 个 结构 化 的 环境 ,能 支持 最 终 用 户 管理 其 全 部 的 业务 ,并 支持 信息 技术 部 
门 保 证 数据 质量 ”。 在 20 世纪 90 年 代 初期 ,数据 仓库 的 基本 原理 ,框架 架构 ,以 及 分 析 系 统 
的 主要 原则 都 已 经 确定 ,主要 技术 包括 关系 型 数据 存 取 、 网 络 、.C/S 架构 和 图 形 化 界面 。 一 
些 前 沿 的 公司 已 经 开始 建立 数据 仓库 。 

1992 年 ,美国 著名 的 信息 工程 学 家 William H. Inmon 在 《建立 数据 仓库 》(Building the 
Data Warehouse) 一 书 中 首先 系统 地 阐述 了 关于 数据 仓库 的 思想 .理论 。 该 书 不 仅 说 明 为 什 
么 要 建 数据 仓库 数据 仓库 能 带 来 什么 ,更 重要 的 是 ,Inmon 第 一 次 提供 了 如 何 建 设 数据 仓 
库 的 指导 性 意见 。 该 书 定义 了 数据 仓库 非常 具体 的 原则 , 即 : 数据 仓库 是 面向 主题 的 ,集成 
的 包含 历 史 的 .不 可 更 新 的 、 面 向 决策 支持 的 ,面向 全 企业 的 、 最 明细 的 数据 存储 、 数 据 快照 
式 的 数据 获取 等 。 这 些 原则 到 现在 仍然 是 指导 数据 仓库 建设 的 最 基本 原则 ,因此 , William 
H. Inmon 被 人 们 尊称 为 “数据 仓库 之 父 ”。 

数据 仓库 的 盛行 始 于 1995 年 ,而 且 其 作为 数据 库 的 高 端 扩 展 技术 一 直 是 一 大 热点 。 
IBM 所 推崇 的 商业 智能 (BD ,其 核心 就 是 数据 仓库 ;微软 的 SQL Server 7. 0 已 经 绑 定 了 
OLAP 服务 器 ,将 数据 仓库 功能 集成 到 数据 库 中 ,并 建立 了 数据 仓库 联盟 ;Oracle 公司 也 有 
自己 的 Oracle Express 系列 OLAP 产品 用 来 提供 决策 支持 。 

从 目前 形势 看 ,数据 仓库 已 成 为 继 因 特 网 之 后 .信息 社会 中 获得 企业 竞争 优势 的 关键 。 
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据 美国 Meta Group 市 场 调查 机 构 的 资料 表明 ,幸福 》 和 杂志 所 列 的 全 球 2000 家 大 公司 中 ， 
已 有 99% 将 因特网 和 数据 仓库 这 两 项 技术 都 列 入 企业 计划 。 


1.2.2 数据 仓库 的 定义 


William H. Inmon 在 《Building the Data Warehouse) 一 书 中 指出 ,“ 数 据 仓 库 是 面向 主 
题 的 、 集 成 的 .具有 时 间 特 征 的 稳定 的 数据 集合 ,用 以 支持 经 营 管理 中 的 决策 制定 过 程 ”。 
由 于 William H. Inmon 本 人 在 数据 仓库 发 展 中 的 重要 作用 ,他 对 数据 仓库 的 上 述 描述 不 断 
被 其 他 文献 引用 ,相对 成 了 一 种 权威 的 定义 。 

与 传统 数据 库 相 比 ,数据 仓库 虽然 是 从 数据 库 发 展 而 来 的 ,但 是 两 者 在 许多 方面 都 存在 
着 相当 大 的 差异 。 从 数据 存储 内 容 看 ,数据 库 只 存放 当前 值 ,而 数据 仓库 则 存放 历史 值 ; 数 
据 库 中 数据 的 目标 是 面向 业务 操作 人 员 ,提供 事务 处 理 的 支持 ,而 数据 仓库 则 是 面向 中 高 层 
管理 人 员 ,提供 决策 支持 ;数据 库 内 的 数据 是 动态 变化 的 ,只 要 有 业务 发 生 , 数 据 就 会 被 更 
新 ,而 数据 仓库 则 是 静态 的 历史 数据 ,只 能 定期 添加 ;数据 库 中 的 数据 结构 比较 复杂 ,用 各 种 
数据 结构 来 满足 业务 处 理 系统 的 需要 ,而 数据 仓库 中 的 数据 结构 则 较为 简单 ;数据 库 中 数据 
的 访问 频率 高 ,但 是 访问 数据 的 量 少 ,而 数据 仓库 的 访问 频率 低 , 但 是 数据 访问 量 要 和 远 高 于 
数据 库 ; 数 据 库 在 访问 数据 时 要 求 响应 速度 很 快 ,其 响应 时 间 一 般 要 求 在 数秒 以 内 ,而 数据 
仓库 的 响应 时 间 可 能 长 达 数 小 时 。 


1.2.3 数据 仓库 与 数据 挖掘 的 联系 与 区 别 


1. 数据 仓库 与 数据 挖掘 的 联系 

数据 挖掘 和 数据 仓库 作为 决策 支持 新 技术 ,在 近 十 年 来 得 到 迅速 发 展 。 作 为 数据 挖 
气 对 象 ,数据 仓库 技术 的 产生 和 发 展 为 数据 挖掘 技术 开辟 了 新 的 战场 ,同时 也 提出 了 新 
的 要 求 和 挑战 。 数 据 仓 库 和 数据 挖掘 是 相互 影响 ` 相 互 促进 的 。 二 者 的 联系 可 以 概括 为 
以 下 几 点 。 

(1) 数据 仓库 为 数据 挖掘 提供 了 更 好 的 ,更 广泛 的 数据 源 。 在 数据 仓库 中 ,集成 和 存储 
着 来 自 异 质 信息 源 的 数据 ,而 这 些 信息 源 本 身 就 可 能 是 一 个 规模 庞大 的 数据 库 。 同 时 数据 
仓库 存储 了 大 量 长 时 间 的 历史 数据 (5 一 10 年 ), 这 使 得 人 们 可 以 进行 数据 长 期 趋势 的 分 析 ， 
这 为 决策 者 的 长 期 决策 行为 提供 了 支持 。 数 据 仓 库 中 数据 在 时 间 轴 上 的 纵深 性 是 数据 挖掘 
不 能 回避 的 一 个 新 难点 。 

(2) 数据 仓库 为 数据 挖掘 提供 了 新 的 支持 平台 。 数 据 仓库 的 发 展 不 仅 为 数据 挖掘 开 
辟 了 新 的 空间 ,也 对 数据 挖掘 技术 提出 了 更 高 的 要 求 。 数 据 仓库 一 般 设计 成 只 读 方式 ， 
数据 仓库 的 更 新 由 专门 的 机 制 保 证 。 数 据 仓库 对 查询 的 强大 支持 使 数据 挖掘 效率 更 高 ， 
挖掘 过 程 可 以 做 到 实时 交互 ,使 决策 者 的 思维 保持 连续 ,有 可 能 挖掘 出 更 深入 .更 有 价值 
的 知识 。 

(3) 数据 仓库 为 更 好 地 使 用 数据 挖掘 工具 提供 了 方便 。 数 据 仓 库 的 建立 ,充分 考虑 数 
据 挖掘 的 要 求 。 用 户 可 以 通过 数据 仓库 服务 器 得 到 所 需 的 数据 ,形成 中 间 数 据 库 ,利用 数据 
挖掘 方法 进行 挖掘, 获得 知识 。 数 据 挖掘 要 面 对 的 是 关系 更 复杂 的 企业 全 局 模式 的 知识 , 数 
据 仓 库 为 数据 挖掘 集成 了 企业 内 各 部 门 的 全 面 的 ,综合 的 数据 。 而 且 ,数据 仓库 机 制 大 大 降 
低 了 数据 挖掘 的 障碍 ,一般 进 行 数据 挖掘 要 花 大 量 的 精力 在 数据 准备 阶段 。 数 据 仓 库 中 的 
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数据 已 经 被 充分 收集 起 来 ,进行 了 整理 、 合 并 ,有 些 还 进行 了 初步 的 分 析 处 理 。 这 样 ,数据 挖 
掘 的 注意 力 能 够 更 集中 于 核心 处 理 阶 段 。 另 外 ,数据 仓库 中 对 数据 不 同 粒度 的 集成 和 综合 ， 
更 有 效 地 支持 了 多 层次 .多 种 知识 的 挖掘 。 

(4) 数据 挖掘 为 数据 仓库 提供 了 更 好 的 决策 支持 。 企 业 领导 的 决策 分 析 要 求 系统 能 够 
提供 更 高 层次 的 决策 辅助 信息 ,从 这 一 点 上 讲 , 基 于 数据 仓库 的 数据 挖掘 能 更 好 地 满足 战略 
决策 的 要 求 。 数 据 挖掘 对 数据 仓库 中 的 数据 进行 模式 抽取 和 发 现 知识 ,这 些 正 是 数据 仓库 
所 不 能 提供 的 。 

(5) 数据 挖掘 对 数据 仓库 的 数据 组 织 提出 了 更 高 的 要 求 。 数 据 仓库 作为 数据 挖掘 的 对 
象 , 要 为 数据 挖掘 提供 更 多 .更 好 的 数据 。 其 数据 的 设计 、 组 织 都 要 考虑 到 数据 挖掘 的 一 些 
要 求 。 

(6) 数据 挖掘 还 为 数据 仓库 提供 了 广泛 的 技术 支持 。 数 据 挖掘 的 可 视 化 技术 、 统 计 分 
析 技 术 等 都 为 数据 仓库 提供 了 强 有 力 的 技术 支持 。 

总 之 ,数据 仓库 在 纵向 和 横向 上 都 为 数据 挖掘 提供 了 更 广阔 的 活动 空间 。 数 据 仓 库 完 
成 数据 的 收集 、 集 成 ,存储 ,管理 等 工作 ,数据 挖掘 面 对 的 是 经 过 初步 加 工 的 数据 ,使 得 数据 
挖掘 能 更 专注 于 知识 的 发 现 ;数据 仓库 所 具有 的 面向 主题 .集成 .时间 特 征 、 数 据 稳定 等 特 
点 ,对 数据 挖掘 技术 提出 了 更 高 的 要 求 , 而 数据 挖掘 为 数据 仓库 提供 了 更 好 的 决策 支持 , 促 
进 了 数据 仓库 技术 的 发 展 。 可 以 说 ,数据 挖掘 和 数据 仓库 技术 要 充分 发 挥 潜力 ,就 必须 结合 
起 来 。 

2. 数据 仓库 与 数据 挖掘 的 区 别 

数据 仓库 是 一 种 存储 技术 , 它 包 含 大 量 的 历史 数据 、 当 前 的 详细 数据 以 及 综合 数据 , 它 
能 为 不 同 用 户 的 不 同 决策 需要 提供 所 需 的 数据 和 信息 。 

数据 挖掘 是 从 人 工 智 能 机 器 学 习 中 发 展 起 来 的 , 它 研究 各 种 方法 和 技术 ,从 大 量 的 数据 
中 挖掘 出 有 用 的 信息 和 知识 。 


1.3 数据 挖掘 的 应 用 


随 着 人 们 对 数据 挖掘 认识 的 深入 ,数据 挖掘 技术 应 用 越 来 越 广泛 ,成 功 的 案例 很 多 。 某 
些 具 有 特定 的 应 用 问题 和 应 用 背景 的 领域 ,最 能 体现 数据 挖掘 的 作用 。 目 前 ,数据 挖掘 应 用 
在 金融 业 和 保险 业 较 多 ,也 扩展 到 了 其 他 应 用 领域 ,如 零售 业 、 医 疗 保健 .运输 业 、 行 政司 法 
等 社会 部 门 以 及 科学 和 工程 研究 单位 。 


1.3.1 数据 挖掘 的 应 用 领域 


1. 金融 业 

金融 业 可 以 用 数据 挖掘 分 析 市 场 的 动向 、 预 测 公 司 的 营运 能 力 和 股价 趋势 等 。 

(1) 评估 账户 信用 等 级 。 金 融 业 风险 与 效益 并 存 , 分 析 账 户 的 信用 等 级 对 于 降低 风险 、 
增加 收益 是 非常 重要 的 。 利 用 数据 挖掘 技术 进行 信用 评估 ,可 以 从 已 有 的 数据 中 分 析 得 到 
信用 评估 的 规则 或 标准 , 即 得 到 “满足 什么 样 条 件 的 账户 属于 哪 一 类 信用 等 级 ”, 并 将 得 到 的 
规则 或 评估 标准 应 用 到 对 新 账户 的 信用 评估 。 

(2) 分 析 信用 卡 使 用 模式 。 通 过 数据 挖掘 技术 分 析 信用 卡 的 使 用 模式 ,可 以 知道 :“ 什 
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么 样 的 人 使 用 信用 卡 属于 什么 样 的 模式 ”。 一 般 在 相当 长 的 一 段 时 间 内 ,个 人 使 用 信用 卡 的 
习惯 往往 是 较为 固定 的 。 因 此 ,通过 判别 信用 卡 的 使 用 模式 ,可 以 监测 到 信用 卡 的 恶性 透支 
行为 ,还 可 以 根据 信用 卡 的 使 用 模式 ,识别 “合法 ”用 户 。 

(3) 分 析 股 票 趋 势 。 可 以 利用 数据 挖掘 技术 从 股票 交易 的 历史 数据 中 得 到 股票 交易 的 
规则 或 规律 。 

(4) 探测 金融 政策 与 金融 行情 关系 。 利 用 数据 挖掘 技术 ,可 以 从 大 量 的 历史 记录 中 发 
现 或 挖掘 出 金融 政策 与 金融 业 行 情 之 间 相 互 影 响 的 更 深层 次 的 关联 关系 。 

数据 挖掘 技术 在 金融 业 还 可 以 对 庞大 的 数据 进行 主 成 分 分 析 , 剔 除 无 关 的 甚至 是 错误 
的 、 相 互 矛盾 的 数据 "杂质 *, 以 更 有 效 地 进行 金融 市 场 分 析 和 预测 ,发 现 隐藏 在 数据 后 面 不 
同 的 财政 金融 指数 之 间 的 联系 。 

2. 保险 业 

(1) 确定 保险 金 。 对 受 险 人 员 的 分 类 有 助 于 确定 适当 的 保险 金额 度 。 通 过 数据 挖掘 可 
以 有 助 于 确定 对 不 同行 业 ,不 同年 龄 段 \ 不 同 社会 层次 人 员 保 险 金 的 额度 。 

(2) 险种 关联 分 析 。 使 用 数据 挖掘 技术 ,通过 险种 关联 分 析 ,可 以 预测 购买 了 某 种 保险 
的 人 是 否 会 同时 购买 另 一 种 保险 。 

(3) 其 他 预测 。 通 过 使 用 数据 挖掘 技术 可 以 预测 哪些 行业 、 哪 个 年 龄 段 、 哪 种 社会 层次 
的 人 会 买 哪 种 保险 ,或 者 预测 哪 类 人 容易 买 新 的 险种 等 。 

3. 科学 研究 

(1) 自然 科学 。 数 据 挖掘 技术 对 于 高 科技 研究 来 说 是 必 不 可 少 的 ,主要 功能 是 对 大 批 
量 数 据 的 处 理 。 高 科技 研究 的 特点 就 是 探索 人 类 未 知 的 秘密 ,而 这 正 是 数据 挖掘 的 特长 所 
在 。 不 借助 于 数据 挖掘 技术 ,要 从 大 量 的 、 漫 无 头绪 而 且 真 伪 难 辨 的 数据 和 资料 中 提炼 出 对 
人 类 有 用 的 信息 ,是 非常 困难 的 。 

(2) 社会 科学 。 数 据 挖掘 在 社会 科学 研究 领域 的 应 用 前 景 也 越 来 越 被 人 们 所 认识 。 社 
会 科学 的 特点 是 从 历史 看 未 来 ,如 从 社会 发 展 的 历史 进程 中 得 出 社会 发 展 的 规律 ,预测 社会 
发 展 的 趋势 ;或 从 人 类 发 展 的 进程 和 人 类 社会 行为 的 变化 中 寻求 对 人 类 行为 规律 的 答案 ,从 
而 求解 各 种 各 样 的 社会 问题 。 

(3) 信息 科学 。 

9 电子 商务 。 通 过 分 析 网 站 的 参观 者 和 购物 者 的 购买 浏览 行为 ,可 以 给 网 站 经 营 者 提 
供 很 好 的 决策 依据 。 例 如 , 找 出 一 条 浏览 频率 高 的 路 径 之 后 ,可 以 进一步 从 中 分 析 用 户 走 此 
路 径 的 目的 是 为 了 查看 哪 种 产品 的 相关 信息 ,进而 可 以 考虑 在 相关 的 网 页 中 加 强 该 产品 的 
广告 宣传 ,以 刺激 用 户 的 购物 欲望 ,增加 销售 量 。 

@ 个 性 化 服务 。 用 户 在 网 上 浏览 过 程 中 总 是 会 出 现 一 些 自己 毫 不 关心 的 话题 ,解决 
方法 就 是 要 把 以 网 站 为 中 心 转换 为 以 用 户 为 中 心 ,提供 个 性 化 服务 。 个 性 化 服务 就 是 根 
据 发 现 的 用 户 喜 好 ,动态 地 为 用 户 定制 所 需 的 内 容 或 提供 浏览 建议 。 实 施 的 基本 思路 
是 ,在 Web 挖掘 的 基础 上 ,根据 浏览 页 面 内 容 之 间 的 相关 性 ,为 用 户 提 供 个 性 化 服务 。 尽 
可 能 使 每 个 用 户 在 浏览 商业 网 站 时 ,都 有 一 种 自己 是 该 网 站 唯一 用 户 的 感觉 ; 尽 可 能 地 
迎合 每 个 用 户 的 浏览 兴趣 ,并 且 不 断 调整 网 站 内 容 来 适应 用 户 浏览 兴趣 的 变化 。 例 如 ， 
依据 网 站 中 的 网 页 内 容 , 将 适合 的 网 页 推荐 给 适合 的 用 户 ;根据 客户 的 喜好 程度 来 推荐 
物品 。 

8. 


@ 网 络 教学 。 网 络 教学 与 传统 教学 最 大 的 差别 在 于 教师 无 法 直接 和 学 生 面 对 面 接触 ， 
因而 ,在 网 络 教 学 成 效 评估 上 ,可 利用 数据 挖掘 技术 挖掘 网 络 教 学 中 使 用 者 的 浏览 信息 , 找 
出 学 生 在 学 习 过 程 中 最 常 访问 的 网 页 后 ,分 析 学 生 的 学 习 状况 ,进一步 提升 整个 网 络 教 学 的 
品质 。 

4. 市 场 营销 

企业 以 市 场 营销 学 的 市 场 细 分 原理 为 基础 ,通过 收集 、 加 工 和 处 理 涉及 消费 者 消费 行为 
的 大 量 信息 ,确定 特定 消费 群体 或 个 体 的 兴趣 、 消 费 习惯 、 消 费 倾向 和 消费 需求 ,进而 推断 出 
相应 消费 群体 或 个 体 下 一 步 的 消费 行为 ,然后 以 此 为 基础 ,对 所 识别 出 来 的 消费 群体 进行 特 
定 内 容 的 定向 营销 ,这 与 传统 的 不 区 分 消费 者 对 象 特征 的 大 规模 营销 手段 相 比 ,大 大 节省 了 
营销 成 本 ,提高 了 营销 效果 ,从 而 为 企业 带 来 更 多 的 利润 。 

5. 客户 关系 管理 

客户 关系 管理 是 数据 挖掘 在 商务 领域 应 用 中 的 一 个 重要 方面 。 数 据 挖掘 已 成 为 客户 关 
系 管理 系统 的 必 备 功能 和 主要 实现 手段 。 

客户 关系 管理 是 指 企 业 通过 富有 意义 的 交流 沟通 ,理解 并 影响 客户 行为 ,最 终 实 现 提高 
客户 获得 、 客 户 保留 、 客 户 忠 诚 和 客户 创利 的 目的 。 

客户 关系 管理 数据 分 析 包括 以 下 4 点 内 容 。 

(1) 整合 存放 在 不 同 数据 库 中 相互 关联 的 原始 数据 ,进行 关联 性 查询 。 

(2) 对 历史 数据 进行 分 析 。 从 历史 数据 中 选择 不 同 的 角度 考察 消费 行为 ;评估 客户 价 
值 , 细 分 客户 群 ; 利 用 数据 验证 行业 经 验 ; 针 对 不 同 的 客户 群发 掘 消费 特点 ;定期 地 将 原始 数 
据 抓 取 到 与 运营 系统 分 离 的 数据 仓库 中 并 完成 分 析 图 表 ,确保 有 效 地 降低 等 待 时 间 ;平衡 分 
析 的 灵活 自 定义 和 分 析 结 果 的 反馈 速度 。 

(3) 收益 /客户 消费 预测 。 建 立 数 据 模型 ,对 不 同 的 客户 群 预测 消费 量 ; 调 整 重 要 参数 ， 
估计 对 收益 或 利润 的 影响 ;对 市 场 活动 的 效果 进行 预测 ;从 不 同 的 维度 进行 知识 发 现 。 

(4) 优化 方法 。 利 用 数据 模型 进行 优化 ,以 确立 适合 的 价格 策略 ;通过 设置 商业 规则 ， 
进行 复杂 的 市 场 划分 ;平衡 市 场 活动 的 费用 和 效益 。 

6. 其 他 领域 

(1) 医疗 。 数 据 挖掘 可 用 于 病例 ,病人 行为 特征 分 析 、 药 方 管理 等 ,以 安排 治疗 方案 、 判 
断 药方 的 有 效 性 等 。 

(2) 司法 。 数 据 挖掘 可 用 于 案件 调查 、 案 例 分 析 、 犯 罪 监 控 等 ,还 可 用 于 犯罪 行为 特征 
的 分 析 。 

(3) 工业 部 门 。 数 据 挖掘 技术 在 工业 部 门 应 用 于 故障 诊断 .生产 过 程 优化 等 。 如 制造 
业 在 质量 控制 .制造 过 程 中 , 找 出 影响 产品 品质 的 最 大 因素 及 提高 作业 流程 的 效率 等 方面 ， 
都 可 以 应 用 数据 挖掘 技术 。 


1.3.2 数据 挖掘 案例 


1. 竞技 运动 中 的 数据 挖掘 
美国 著名 的 NBA 篮球 队 的 教练 ,利用 IBM 公司 提供 的 数据 挖掘 工具 临场 决定 替换 队 
员 。 若 读者 是 NBA 的 教练 ,那么 靠 什么 来 带领 球 队 取得 胜利 呢 ? 当然 ,最 容易 想到 的 是 全 
场 紧 逼 、 交 又 扯 动 和 快速 抢断 等 具体 的 战术 和 技术 。 今天 ,NBA 的 教练 又 有 了 新 式 武器 : 
9 。 


数据 挖掘 。 大 约 20 个 NBA 球 队 使 用 了 IBM 公司 开发 的 数据 挖掘 应 用 软件 Advanced 
Scout 系统 来 优化 他 们 的 战术 组 合 。 

例如 ,奥兰多 魔术 队 教练 曾 利用 Scout 系统 对 队员 进行 不 同 的 布 阵 安排 ,在 与 迈阿密 热 
队 的 比赛 中 找到 了 获胜 的 机 会 。 

系统 分 析 显 示 , 奥 兰 多 魔术 队 先 发 阵容 中 的 两 个 后 卫 安 佛 尼 。 哈 德 卫 (Anfernee 
Hardaway) 和 伯 兰 .。 绍 (Brian Shaw) 在 前 两 场 中 被 评 为 一 17 分 , 即 这 两 个 队员 在 场 上 ,本 
队 输 掉 的 分 数 比 得 到 的 分 数 多 17 分 。 然 而 , 当 安 佛 尼 ， 哈 德 卫 与 替补 后 卫 达 利 尔 。 阿 姆 斯 
创 (Darrell Armstrong) 组 合 时 ,奥兰多 魔术 队 得 分 为 正 14 分 。 

在 下 一 场 中 ,奥兰多 魔术 队 增 加 了 达 利 尔 。 阿 姆 斯 创 的 上 场 时 间 。 这 种 方法 果然 见效 : 
达 利 尔 。 阿 姆 斯 创 得 到 了 21 分 , 安 佛 尼 ， 哈 德 卫 得 到 了 42 分 ,奥兰多 魔术 队 以 88 : 79 获 
胜 。 奥 兰 多 魔术 队 在 第 四 场 让 达 利 尔 。 阿 姆 斯 创 进 入 先 发 阵 容 , 再 一 次 打败 了 迈阿密 热 队 。 
在 第 五 场 比赛 中 ,这 个 靠 数据 挖掘 支持 的 阵容 没 能 拖 住 迈阿密 热 队 ,但 Advanced Scout 系 
统 毕竟 帮助 奥兰多 魔术 队 赢 得 了 打 满 5 场 ,直到 最 后 才 决 出 胜 负 的 机 会 。 

Advanced Scout 系统 是 一 个 数据 分 析 工 具 ,教练 可 以 用 便携 式 计算 机 在 家 里 或 在 路 上 
挖掘 存储 在 NBA 中 心 的 服务 器 上 的 数据 。 每 一 场 比赛 的 事件 都 按 得 分 、 助 攻 、 失 误 等 进行 
统计 分 类 。 时 间 标 记 让 教练 非常 容易 地 通过 搜索 NBA 比赛 的 录像 来 理解 统计 发 现 的 含 
义 。 例 如 ,教练 通过 Advanced Scout 系统 发 现 本 队 的 球员 在 与 对 方 一 个 球星 对 抗 时 有 犯规 
记录 ,他 可 以 在 对 方 球星 与 这 个 队员 ”* 头 碰头 ”的 瞬间 分 解 双方 接触 的 动作 ,进而 设计 合理 的 
防守 策略 。 

Advanced Scout 系统 的 开发 人 因 德 帕 尔 ，。 布 罕 德 瑞 , 在 IBM 的 Thomas。Watson 研 
究 中 心 当 研 究 员 时 ,演示 了 一 个 技术 新 手 应 该 如 何 使 用 数据 挖掘 。 因 德 由 尔 。 布 罕 德 瑞 
说 :“ 教 练 们 可 以 完全 没有 统计 学 的 培训 ,但 他 们 可 以 利用 数据 挖掘 制定 策略 .与 此 同 
时 , 另 一 个 正式 的 体育 联盟 一 一 国家 曲棍球 联盟 ,正在 开发 自己 的 数据 挖掘 应 用 NHL- 
ICE, 该 联盟 与 IBM 建立 了 一 个 技术 型 的 合资 公司 ,推出 了 一 个 电子 实时 的 比赛 计 分 和 统 
计 系 统 。 在 原理 上 是 一 个 与 Advanced Scout 系统 相似 的 数据 挖掘 应 用 ,可 以 让 教练 .广播 
员 、 新 闻 记者 及 球迷 挖掘 NHL 的 统计 。 当 他 们 访问 NHL 的 Web 站 点 时 ,球迷 能 够 使 用 
该 系统 循环 观看 联盟 的 比赛 ,同时 广播 员 和 新 闻 记 者 可 以 挖掘 统计 数据 , 找 花边 新 闻 ,为 
实况 评述 添 油 加 醋 。 

2. 超市 中 的 数据 挖掘 

Safeway 是 英国 的 第 三 大 连锁 超市 ,年 销售 额 超过 一 百 亿 美元 ,提供 的 服务 种 类 达 三 四 
十 种 。 该 超市 的 首席 信息 官 CIO 迈克 。 温 曲 指出 ,该 公司 必须 要 采用 不 同 的 方式 来 取得 竞 
争 上 的 优势 .“ 运 用 传统 的 方法 一 降低 价位 .扩充 店面 以 及 增加 商品 种 类 , 若 想 在 竞争 中 取 
胜 已 经 越 来 越 困 难 了 ”。 如 何 能 在 竞争 中 立 于 不 败 之 地 ? 温 曲 先生 的 说 法 是 :“ 必 须 以 客户 
为 导向 ,而 非 以 产品 和 商家 为 导向 。 这 意味 着 必须 更 了 解 每 一 位 客户 的 需求 。 为 了 达到 这 
个 目标 ,必须 了 解 六 百 万 客户 所 做 的 每 一 笔 交 易 以 及 这 些 交易 彼此 之 间 的 关联 性 ,” 换 句 话 
说 ,Safeway 想 要 知道 哪些 类 型 的 客户 买 了 哪些 类 型 的 产品 以 及 购买 的 频率 ,用 来 建立 “以 
个 人 为 导向 的 市 场 ”。 

Safeway 首先 根据 客户 的 相关 资料 ,将 客户 分 为 150 类 ;再 用 关联 技术 来 比较 这 些 资 料 
集合 (包括 交易 资料 以 及 产品 资料 ) ;然后 列 出 产品 相关 度 的 清单 (例如 ,“ 在 购买 烤肉 炭 的 客 

OR 


户 中 ,75% 的 人 也 会 购买 打火机 燃料 ”) ;最 后 ,再 对 商品 的 利润 进行 细 分 。 例 如 ,Safeway 发 
现 某 一 种 乳酪 产品 虽然 销售 额 排名 较 靠 后 ,在 第 209 位 ,可 是 有 25% 消 费 额 最 高 的 客户 都 
常常 买 这 种 乳 酷 ,这 些 客户 是 Safeway 最 不 想 得 罪 的 客户 。 因 此 ,这 种 产品 是 相当 重要 的 。 
同时 ,Safeway 也 发 现 , 在 28 种 品牌 的 橘子 汁 中 ,有 8 种 特别 受 消费 者 欢迎 。 因 此 ,该 公司 
重新 安排 货架 的 摆 放 ,使 橘子 汁 的 销量 能 够 大 幅 增加 。“ 我 可 以 举 出 数 百 种 与 客户 购买 行为 
有 关 的 例子 ,” 温 曲 先生 指出 ,“ 这 些 信息 实在 是 无 价 之 宝 。” 

采用 数据 挖掘 技术 ,在 Safeway 知道 客户 每 次 采购 时 会 买 哪些 产品 后 ,就 可 以 找 出 
长 期 的 经 常 性 购买 行为 ;再 将 这 些 资 料 与 主 数 据 库 的 人 口 统计 资料 结合 在 一 起 ,营销 
部 门 就 可 以 根据 每 个 家 庭 在 哪个 季节 倾向 于 购买 哪些 产品 的 特性 发 出 邮件 。 根 据 这 
些 信息 该 超市 在 一 年 内 曾 发 了 1200 万 封 有 针对 性 的 邮件 ,对 超市 销售 量 的 增长 起 了 
很 重要 的 作用 。 

3. 站 点 访问 量 分 析 中 的 数据 挖掘 

美国 亚特兰大 的 AutoTrader. com 是 世界 上 最 大 的 汽车 网 站 ,网 站 上 提供 非常 丰富 的 
二 手 汽车 及 其 他 交通 工具 信息 。 每 天 有 许多 用 户 访问 该 网 站 ,寻求 有 用 的 信息 。 

由 于 决策 者 需要 从 多 角度 、 多 层次 来 对 客户 访问 网 站 的 情况 进行 分 析 和 管理 ,所 以 
他 们 需要 知道 : 什么 样 的 客户 访问 这 个 网 站 、 客 户 喜 欢 怎 样 的 网 站 访问 路 径 来 获得 所 需 
信息 、 各 个 网 站 层次 访问 量 如 何 、 同 一 位 客户 访问 网 站 的 频率 、 客 户 经 常 重复 进行 怎样 的 
购买 行为 . 哪 位 老 客户 介绍 来 了 新 客户 以 及 经 介绍 来 的 新 客户 和 不 是 经 介绍 来 的 新 客户 
购买 习惯 有 什么 不 同 ,等 等 。 最 后 ,AutoTrader. com 决定 用 相关 的 分 析 和 数据 挖掘 工具 
对 用 户 的 网 络 点 击 率 进 行 分 析 , 从 而 决定 自己 是 否 需要 根据 客户 的 不 同 喜好 开设 特定 服 
务 区 。 

AutoTrader. com 的 数据 存放 在 有 4 个 处 理 器 的 Sun Microsystems 4000 服务 器 上 , 选 
用 了 SAS(Statistical Analysis System) 的 分 析 和 数据 挖掘 软件 ,因为 它们 具有 应 用 开发 、 信 
息 和 图 形 展现 `Web 发 布 及 SAS/SPSS 等 方面 集成 的 能 力 , 使 得 AutoTrader. com 可 对 网 
站 下 一 年 度 的 访问 流量 进行 预测 。 另 外 ,由 于 它们 可 以 很 好 地 支持 大 数据 量 , AutoTrader. 
com 将 不 会 为 逐渐 增长 的 数据 量 而 担心 。 

不 仅 如 此 ,AutoTrader. com 还 定制 了 应 用 系统 ,每 天 凌晨 两 点 应 用 系统 访问 日 志文 件 
中 的 数据 ,对 数据 自动 解压 与 分 析 ,自动 生 成 包含 访问 统计 量 和 图 表 的 网 页 ,并 在 第 二 天 早 
晨 自 动 送 到 决策 人 员 的 计算 机 上 。 这 样 , 可 以 对 这 些 报表 进行 操作 ,以 报表 或 3D 图 表 的 形 
式 进行 浏览 与 观察 。 

4. 通过 数据 挖掘 进行 个 性 化 服务 

美国 的 Big Samys Clothing 公司 曾经 开发 了 一 个 网 站 来 补充 商品 目录 。 在 Big Samys 
公司 第 一 次 将 网 站 上 线 时 ,并 没有 什么 个 性 化 的 内 容 , 网 站 只 是 商品 目录 美观 有 效 的 在 线 翻 
版 ,但 是 没有 利用 Web 增加 销售 机 会 。 

后 来 ,Big Sam’”s 公司 利用 数据 挖掘 技术 迅速 提高 了 网 络 销售 量 。 

首先 ,Big Sam’”s 公司 使 用 聚 类 的 方法 来 发 现 哪些 商品 自然 的 分 在 同一 组 中 。 有 时 一 
些 聚 类 是 十 分 明显 的 ,如 衬衫 和 短裤 ;一些 聚 类 可 能 是 令 人 惊奇 的 ,如 关于 沙漠 探险 的 书 和 
医疗 工具 包 。 当 顾客 购买 其 中 的 一 种 商品 时 ,这 些 聚 类 用 来 向 顾客 提出 购买 另 一 种 商品 的 
建议 。 

Es 


然后 ,Big Samys 公司 又 进行 客户 分 析 来 识别 那些 经 常 对 添加 在 商品 目录 中 的 新 商品 
感 兴趣 的 客户 。Big Sam’s 公司 指引 客户 购买 那些 挑选 出 来 的 产品 不 仅仅 带 来 销售 的 增 
加 ,而 且 巩 固 了 客户 关系 。 调 查 显示 Big Samys 公司 被 看 做 是 一 个 衣物 和 装饰 品 方面 可 信 
赖 的 顾问 。 

为 了 扩大 影响 ,Big Sam’”s 公司 还 利用 一 个 应 用 程序 向 客户 发 送 E-mail, 通 过 E-mail 向 
客户 提供 由 数据 挖掘 模型 预测 的 客户 感 兴趣 的 新 产品 信息 。 

个 性 化 销售 的 努力 为 Big Sam’s 公司 带 来 了 盘 利 : 它 在 重复 销售 .每 一 客户 的 平均 销 
售 量 和 销售 的 平均 范围 等 方面 有 了 较 大 的 提高 。 

s.“ 体 育 精品 ”体育 用 品 公司 

“体育 精品 ”体育 用 品 公 司 总 部 在 悉尼 ,在 7 个 国家 设 有 分 店 。 

为 了 增加 销售 量 ,负责 销售 的 副 总 裁决 定 通过 奖励 来 促销 ,奖励 销售 额 最 高 的 地 区 
和 产品 销售 最 多 的 单位 。 为 此 ,这 位 副 总 裁 要 求 首 席 信息 官 写 出 两 份 报告 ,但 是 销售 数 
据 存 储 在 不 同 地 区 的 不 同类 型 的 数据 库 中 ,不 但 数据 的 格式 不 同 ,而 且 不 同 地 区 营业 额 
用 所 用 货币 单位 也 不 同 。 首 席 信 息 官 先 用 IBM Visual Warehouser 数据 仓库 工具 将 这 些 
数据 集中 ,并 进行 处 理 。 完 成 了 副 总 裁 要 求 的 两 份 报告 : 按 地 区 的 销售 额 和 按 产品 的 销 
售 额 。 

首席 信息 官 向 副 总 裁 建议 ,可 以 进一步 挖掘 其 他 信息 。 如 购买 山地 车 的 顾客 最 可 能 再 
购买 其 他 哪些 产品 ,购买 气 瓶 的 顾客 1 年 内 回来 充气 多 少 次 。 得 到 的 答案 如 下 。 

(1) 购买 山地 车 的 顾客 再 购买 头盔 的 可 能 性 为 92%; 青 购买 手套 的 可 能 性 为 62%% ;再 
购买 新 款 铃 匀 的 可 能 性 为 23% ;再 购买 速度 计 的 可 能 性 为 13%。 

通过 上 述 数据 ,决定 对 购买 山地 车 的 顾客 引导 他 们 再 购买 上 述 产品 ;还 可 以 对 他 们 宣传 
骑 车 安全 问题 ,提高 购买 反光 单车 灯 和 后 视 镜 等 产品 的 销售 ;也 可 以 向 顾客 进行 饮料 瓶 、 个 
人 音响 等 其 他 产品 的 捆绑 销售 。 

(2) 购买 气 瓶 的 顾客 一 年 内 回来 充气 1 次 的 有 12%% ;回来 充气 2 次 的 有 8% ;回来 充气 
2 次 以 上 的 只 有 7%。 

针对 上 述 数 据 , 有 两 种 决策 : 放弃 充气 业务 或 进行 更 大 力度 的 促销 策略 。 

决定 采取 第 二 种 决策 ,具体 促销 策略 是 ,给 两 次 以 上 充气 的 顾客 优惠 25% 折 扣 , 或 实施 
新 的 刺激 销售 方法 , 即 在 春季 给 购买 气 瓶 的 顾客 邮寄 信函 提醒 他 们 回来 充气 ,在 停车 场 建立 
更 多 的 便利 充气 站 以 及 顾客 每 一 次 充气 都 发 折扣 优惠 券 等 。 

一 个 月 后 ,季度 的 营业 额 上 升 34% ,收入 上 涨 32%。 每 辆 山地 车 交易 的 平均 销售 收入 
增加 了 29% ,山地 车 与 头盔 一 起 购买 成 了 时 尚 , 手 套 的 销售 额 上 升 了 15% ,山地 车 附件 的 销 
售 额 上 升 了 51%% 。 拥 绑 销 售 得 到 普及 , 气 瓶 充气 的 销售 开始 上 升 。 


1.4 常用 数据 挖掘 工具 


目前 ,数据 挖掘 在 企业 经 营 管理 ,政府 行政 管理 的 决策 支持 及 科学 研究 等 领域 获得 

了 广泛 的 应 用 ,许多 公司 已 经 推出 了 专门 的 数据 挖掘 工具 ,如 IBM 公司 的 Intelligent 

Miner, Thinking Machines 公司 的 Darwin, NeoVista Solution 公司 的 Decision Series, Angoss 
六 入 沽 


的 Knowledge Seeker 等 ;另外 ,很 多 数据 库 管 理 系统 或 者 统计 软件 也 增加 了 支持 数据 挖掘 
的 功能 ,如 SQL Server 2005、Oracle、SPSS/Clementine 及 SAS/Enterprise Miner 等 。 由 于 
不 同 的 工具 具有 不 同 的 优势 和 不 足 , 因 此 ,要 想 真正 做 好 数据 挖掘 ,就 要 根据 所 选择 的 数 
据 对 象 和 需求 ,选择 合适 的 数据 挖掘 工具 。 本 节 将 介绍 常用 的 几 种 数据 挖掘 工具 及 其 
应 用 。 


1.4.1 数据 挖掘 工具 的 种 类 


1. 按 使 用 方式 分 类 

数据 挖掘 工具 按 使 用 方式 分 类 ,可 以 分 成 决策 方案 生成 工具 商业 分 析 工 具 和 研究 分 析 
工具 。 

决策 方案 生成 工具 是 针对 某 个 特定 行业 或 特定 问题 而 开发 的 一 类 数据 挖掘 工具 ,如 人 金 
融 行 业 的 欺诈 检查 工具 、 零 售 行业 的 客户 流失 分 析 工 具 等 。 

商业 分 析 工 具 包 括 两 种 类 型 : 一 种 是 只 为 用 户 提供 一 个 黑箱 ,用 户 只 需要 将 需要 分 析 
的 对 象 和 相关 的 一 些 环境 因素 提供 给 工具 ,数据 挖掘 工具 将 自动 给 出 数据 挖掘 的 结果 ,其 内 
部 的 一 些 复杂 模型 并 不 向 用 户 展示 ,这 种 类 型 的 数据 挖掘 工具 适合 管理 人 员 使 用 ; 另 一 种 是 
向 用 户 展示 数据 挖掘 模型 ,用 户 可 以 根据 自己 的 需要 选择 数据 挖掘 模型 或 对 数据 挖掘 模型 
进行 适当 的 控制 。 例 如 ,将 决策 树 展示 给 用 户 , 用 户 可 以 对 决策 树 进行 切片 处 理 , 这 类 工具 
主要 为 企业 管理 顾问 或 商业 分 析 人 员 服 务 。 

研究 分 析 工 具 为 用 户 提供 了 更 大 的 数据 挖掘 应 用 空间 ,其 用 户主 要 是 数据 挖掘 研究 人 
员 或 商业 分 析 人 员 。 这 些 工 具 包含 了 一 些 数据 挖掘 研究 领域 的 最 新 研究 成 果 , 如 文本 挖掘、 
Web 挖掘 或 图 形 .可 视 化 工具 等 。 

2. 按 数据 挖掘 技术 分 类 

数据 挖掘 工具 按 数据 挖掘 技 术 的 种 类 ,可 以 分 成 基于 神经 网 络 的 工具 ,基于 规则 和 决策 
树 的 工具 ,基于 模糊 多 辑 的 工具 和 综合 性 数据 挖掘 工具 等 。 

(1) 基于 神经 网 络 的 工具 。 该 工具 由 于 有 非 线性 数据 的 快速 建 模 能 力 , 在 实际 应 用 中 
越 来 越 流行 ,特别 是 在 市 场 数据 库 的 分 析 和 建 模 方面 应 用 比较 广泛 。 

(2) 基于 规则 和 决策 树 的 工具 。 采 用 规则 发 现 或 决策 树 分 类 技术 来 发 现 数据 模式 和 规 
则 ,其 核心 是 某 种 归纳 算法 。 这 类 工具 常 针对 数据 库 的 数据 进行 开发 ,生成 规则 和 决策 树 ， 
然后 对 数据 进行 分 析 和 预测 ,其 主要 优点 是 规则 和 决策 树 都 是 可 读 的 。 

(3) 基于 模糊 逻辑 的 工具 。 其 数据 挖掘 方法 是 应 用 模糊 逻辑 进行 数据 查询 、 排 序 等 。 
该 工具 使 用 模糊 概念 和 最近" 搜索 技 术 的 数据 查询 工具 , 它 可 以 让 用 户 指定 目标 ,然后 对 数 
据 库 进行 搜索 , 找 出 接近 目标 的 所 有 记录 ,并 对 结果 进行 评估 。 

(4) 综合 性 数据 挖掘 工具 。 这 类 工具 采用 了 多 种 数据 挖掘 方法 ,一 般 规 模 较 大 ,适合 对 
大 型 数据 库 的 数据 进行 挖掘 。 综 合 性 数据 挖掘 工具 的 数据 挖掘 能 力 很 强 , 但 价格 昂贵 ,并且 
用 户 需 要 花 很 长 的 时 间 进 行 学 习 , 才 能 掌握 这 类 工具 的 应 用 。 

3. 按 应 用 范围 分 类 

数据 挖掘 工具 按 应 用 范围 ,可 以 分 成 专用 型 数据 挖掘 工具 和 通用 型 数据 挖掘 工具 。 

(1) 专用 型 数据 挖掘 工具 主要 用 于 某 一 特定 领域 。 如 美国 加 州 理工 学 院 与 日 本 的 
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Kayyad 设计 的 SKICAT ,能 够 对 大 规模 的 空间 数据 进行 分 析 , 识 别 遥 远 空 间 的 星体 。 芬 
兰 赫 尔 辛 基 大 学 研制 的 TASA ,能够 采用 特殊 算法 处 理 网 络 通信 中 的 数据 ,对 网 络 通 信 故 
障 发 出 警报 。 由 于 专用 型 数据 挖掘 工具 针对 性 较 强 ,采用 了 一 些 特殊 的 算法 对 特定 的 数 
据 集 进行 处 理 , 数 据 挖掘 的 效率 较 高 ,挖掘 出 的 知识 可 靠 性 也 较 高 ,但 是 应 用 范围 受到 
限制 。 

(2) 通用 型 数据 挖掘 工具 有 IBM 公司 的 IM 智能 挖掘 器 ,这 是 一 套 包括 了 Explorer、 
Diamond 和 Quest 在 内 的 软件 产品 ,可 以 用 来 提供 高 端 数据 挖掘 的 解决 方案 。 其 中 的 
Explorer 是 一 种 用 于 聚 类 的 神经 网 络 工具 ,Diamond 是 一 种 可 视 化 数据 挖掘 软件 产品 ,而 
Quest 则 提供 了 关联 规则 、 分 类 规则 .序列 模式 与 相似 序列 等 模式 。 

SPSS 公司 的 统计 软件 包 SPSS 在 统计 领域 处 于 领先 的 位 置 , 其 中 的 线性 回归 分 析 结 果 
和 类 似 的 数据 挖掘 工具 对 数据 挖掘 的 结果 是 一 致 的 ,而 这 些 控 掘 工 具 采 用 的 是 传统 统计 
方法 。 

Red Brick 系统 公司 的 Red Brick 数据 挖掘 工具 是 第 一 个 将 数据 挖掘 解决 方案 与 数据 
库 集成 在 一 起 的 数据 挖掘 软件 。 在 与 数据 库 的 链接 中 减少 了 传统 数据 挖掘 中 需要 的 大 量 数 
据 准 备 时 间 , 并 且 提 供 了 扩展 的 SQL 语言 ,用 户 可 以 使 用 SQL 语言 建立 , 存 取 和 访问 数据 
仓库 中 的 模型 。 


1.4.2 评价 数据 挖掘 工具 优 劣 的 指标 


在 数据 挖掘 技术 日 益 发 展 的 同时 ,许多 数据 挖掘 的 商业 软件 工具 也 逐渐 问世 。 评 价 一 
个 数据 挖掘 工具 ,主要 从 5 个 方面 来 考虑 : 可 产生 的 模式 种 类 的 数量 ;解决 复杂 问题 的 能 
力 ; 易 操作 性 ;数据 存 取 能 力 ;与 其 他 产品 的 接口 .噪声 数据 的 处 理 及 挖掘 工具 的 鲁 棒 性 。 

评价 数据 挖掘 工具 优 劣 的 指标 如 下 。 

(1) 数据 准备 。 包 括 数据 净化 .描述 .变换 和 抽样 的 能 力 。 

(2) 数据 访问 。 即 访问 不 同 数据 源 的 能 力 。 

(3) 算法 建 模 。 数 据 挖掘 寻找 的 知识 类 型 多 种 多 样 , 有 关联 规则 、 分 类 /预测 . 聚 类 规则 
等 模型 ,因此 ,优秀 的 挖掘 工具 应 当 包含 多 种 数据 挖掘 算法 ,以 处 理 不 同 的 需求 :同时 ,算法 
的 稳定 性 收敛 性 以 及 对 噪声 的 敏感 程度 等 也 是 重要 指标 。 

(4) 模型 的 评价 和 解释 。 数 据 挖掘 工具 经 过 对 数据 的 分 析 建 立 模型 ,要 求 工 具 能 够 提 
供 多 样 的 .易于 理解 的 方式 ,如 模型 的 性 能 参数 .图 表 表 示 方 法 等 ,对 模型 进行 评价 和 解释 。 

(5) 用 户 界面 。 数 据 挖掘 工具 经 过 对 数据 的 分 析 建 立 模 型 ,部 分 工具 还 提供 了 数据 挖 
掘 应 用 编程 接口 (application programming interface,API) ,是 为 专业 用 户 而 配置 的 。 相 比 
之 下 ,图 形 用 户 接 口 (graphics user interface,GUT) 可 以 简化 建 模 的 过 程 ,方便 普通 用 户 。 能 
否 满足 不 同类 型 用 户 的 需求 ,也 是 评价 工具 的 重要 指标 。 


1.4.3 常用 数据 挖掘 工具 


数据 挖掘 工具 种 类 繁多 ,以 下 介绍 几 种 常用 的 数据 挖掘 工具 。 

1. SPSS 

SPSS(Statistical Package for the Social Science, 社 会 科学 统计 软件 包 ) 是 一 种 集成 化 
和 


的 计算 机 数据 处 理应 用 软件 , 主 界面 如 图 1-2 所 示 。1968 年 ,美国 斯 坦 福 大 学 H. Nie 等 3 
位 大 学 生 开 发 了 最 早 的 SPSS 统计 软件 ,并 于 1975 年 在 芝加哥 成 立 了 SPSS 公司 ,广泛 应 用 
于 通信 医疗、 银行 证券. 保险 .制造 .市 场 研究 .科研 .教育 等 多 个 领域 和 行业 。 
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目前 ,世界 上 最 著名 的 数据 分 析 软 件 是 SAS 和 SPSS。SAS 是 为 专业 统计 分 析 人 员 设 
计 的 ,具有 功能 强大 ,灵活 多 样 的 特点 ,为 专业 人 士 所 喜爱 。 而 SPSS 是 为 广大 的 非 专 业 人 
士 设计 , 它 操作 简便 ,好 学 易 懂 ,简单 实用 ,因而 很 受 非 专业 人 士 的 青睐 。 此 外 , 比 起 SAS 软 
件 来 ,SPSS 主要 针对 社会 科学 研究 领域 开发 ,因而 更 适合 应 用 于 教育 科学 研究 ,是 国外 教 
育 科研 人 员 必 备 的 科研 工具 。1988 年 ,中 国 高 教学 会 首次 推广 了 这 种 软件 ,从 此 成 为 国内 
教育 科研 人 员 最 常用 的 工具 。 

SPSS 软件 的 特点 如 下 。 

(1) 集 数据 录入 、 资 料 编辑 数据 管理 ,统计 分 析 、 报 表 制 作 、 图 形 绘制 为 一 体 。 从 理论 
上 说 ,只 要 计算 机 硬盘 和 内 存 足 够 大 ,SPSS 可 以 处 理 任意 大 小 的 数据 文件 ,无 论文 件 中 包 
含 多 少 个 变量 ,也 不 论 数 据 中 包含 多 少 个 案例 。 

(2) 统计 功能 喜 括 了 几乎 全 部 常规 的 统计 方法 ,并 能 在 屏幕 (或 打印 机 ) 上 显示 (打印 ) 
如 正 态 分 布 图 .直方 图 、 散 点 图 等 各 种 统计 图 表 。 从 某 种 意义 上 讲 ,SPSS 软件 还 可 以 帮助 
数学 功底 不 够 的 使 用 者 学 习 运用 现代 统计 技术 。 使 用 者 仅 需要 关心 某 个 问题 应 该 采用 何 种 
统计 方法 ,并 初步 掌握 对 计算 结果 的 解释 ,而 不 需要 了 解 其 具体 运算 过 程 ,可 以 在 使 用 手册 
的 帮助 下 定量 分 析 数 据 。 

(3) 界面 友好 ,操作 简单 。SPSS for Windows 界面 完全 是 菜单 式 , 一 般 稍 有 统计 基础 
的 人 经 过 简单 培训 即 可 用 SPSS 做 简单 的 数据 分 析 。 

2. SAS 

SAS 是 由 美国 北 卡罗来纳 州立 大 学 于 1966 年 开发 的 统计 分 析 软 件 。1976 年 SAS 软 
件 研究 所 (SAS Institute Inc. ) 成 立 ,开始 进行 SAS 系统 的 维护 、 开 发 .销售 和 培训 工作 。 经 
过 多 年 来 的 完善 和 发 展 ,SAS 系统 在 国际 上 已 被 誉 为 统计 分 析 的 标准 软件 ,在 各 个 领域 得 
到 广泛 应 用 。 
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SAS 是 一 个 模块 化 .集成 化 的 大 型 应 用 软件 系统 , 主 界面 如 图 1-3 所 示 。 它 由 数 十 个 专 
用 模块 构成 ,功能 包括 数据 访问 、 数 据 储 存 及 管理 ,应 用 开发 .图 形 处 理 、 数 据 分 析 、 报 告 编 
制 .运筹 学 方法 、 计 量 经 济 学 与 预测 等 。SAS 系统 基本 上 可 以 分 为 四 大 部 分 : SAS 数据 库 
部 分 .SAS 分 析 核 心 .SAS 开发 呈现 工具 .SAS 对 分 布 处 理 模 式 的 支持 及 其 数据 仓库 设计 ， 
分 别 完 成 以 数据 为 中 心 的 四 大 任务 : 数据 访问 ,数据 管理 ,数据 呈现 ,数据 分 析 。 


$A [-IsIx] 
File Edit View Locals Globals Options Window Belp 
EE EDOEE 
1 再 百 辣 | 
INOTE: cop' c) A 1996 by SAS Institute ee 9 ys NC, USA. 
NOTE: SRSY Cr ye rope rietary Softuare Release 6.12 


Lie TePSAS NETITUTE To ee 9RAE IAsTALLAT ION, Site 0008839074. 


NOTE: AUTOEXEC processing beginning; file is 0:\SAS\AUTOEXEC.SAS. 


NOTE: AUTOEXEC processing conmpleted. 


四 PROGRAM BDITOR - (Untitled) 男 回 处 


图 +3 SAS 界 面 


SAS 软件 具有 以 下 特点 。 

(1) 功能 强大 ,统计 方法 齐全 ,新 。SAS 提供 了 从 基本 统计 数 的 计算 到 各 种 实验 设计 
的 方差 分 析 、` 相 关 回 归 分 析 、 多 参数 分 析 等 多 种 统计 分 析 过 程 , 几 乎 讲 括 了 所 有 最 新 分 析 方 
法 ,其 分 析 技 术 先 进 .可 靠 。 分 析 方 法 的 实现 通过 过 程 调 用 完成 。 许 多 过 程 同 时 提供 了 多 种 
算法 和 选项 。 

(2) 使 用 简便 ,操作 灵活 。SAS 编程 语句 简洁 ,短小 ,通常 只 需 很 小 的 几 句 语句 即 可 完 
成 一 些 复杂 的 运算 ,得 到 满意 的 结果 。 结 果 输 出 以 简明 的 英文 给 出 提示 ,统计 术语 规范 

(3) 提供 联机 帮助 功能 。 使 用 过 程 中 按 下 功能 键 F1, 可 随时 获得 帮助 信息 ,得 到 简明 
的 操作 指导 。SAS 把 数据 存 取 、 管 理 . 分 析 和 展现 有 机 地 融 为 一 体 。 

3. SQL Sever 2005 

SQL Server 是 一 个 全 面 的 、 集 成 的 、 端 到 端的 数据 解决 方案 , 它 为 组 织 中 的 用 户 提供 了 
一 个 更 安全 可 靠 和 更 高 效 的 平台 ,主要 用 于 企业 数据 和 BI 应 用 。SQL Server 2005 为 IT 专 
家 和 信息 工作 者 带 来 了 功能 强大 的 数据 挖掘 分 析 工 具 ， Pps 
据 系统 的 多 平台 上 创建 .部署 . 管 理 和 使 用 企业 数据 和 分 析 应 用 程序 的 复杂 

SQL Server 2005 也 包含 了 多 个 能 显著 提高 开发 者 能 力 的 新 技术 。 es NET 框架 
到 和 Visual Studio 的 紧密 集成 ,这 些 新 特性 使 开发 人 员 能 够 以 更 低 的 成 本 ,更 容易 地 创建 
安全 ,强大 的 数据 库 应 用 程序 。 

Microsoft SQL Server 2005 Data Mining( 数 据 挖掘 ) 属 于 商务 智能 技术 ,可 帮助 构建 复 
杂 的 分 析 模 型 ,并 使 其 与 业务 操作 相 集 成 。Microsoft SQL Server 2005 分 析 服 务 中 构建 了 
一 个 新 的 易于 使 用 的 、 容 易 扩展 的 方便 访问 的 非常 灵活 的 平台 ,如 图 1-4 所 示 。 对 于 以 前 

站 


从 未 考虑 过 采用 数据 挖掘 的 组 织 机 构 ,这 无 疑 是 个 非常 容易 接受 的 解决 方案 。 
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图 +4 ”Mcrosoft SQL Server 2005 数据 挖掘 平台 界面 


4. Weka 

Weka(Waikato Environment for Knowledge Analysis, 怀 卡 托 智能 分 析 环 境 ) , 是 一 个 
开放 源码 的 数据 挖掘 软件 , 主 界面 如 图 1-5 所 示 。Weka 也 是 新 西 兰 独 有 的 一 种 鸟 名 , 而 
Weka 的 主要 开发 者 来 自 新 西 兰 的 Waikato 大 学 。 数 据 挖掘 用 户 可 通过 Weka 集成 的 大 量 
算法 ,执行 数据 预 处 理 、 分 类 、 回 归 、 聚 类 、 关 联 规则 、 数 据 可 视 化 等 任务 。 而 开发 者 可 使 用 
Java 语言 ,在 Weka 架构 上 开发 出 更 多 的 数据 挖掘 算法 。 使 用 Weka 可 以 轻松 地 进行 数据 
预 处 理 和 在 数据 集 上 运用 数据 挖掘 算法 。 
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5. MATLAB 

MATLAB 是 矩阵 实验 室 (Matrix Laboratory) 的 简称 ,是 美国 MathWorks 公司 出 品 的 
商业 数学 软件 ,是 用 于 算法 开发 .数据 可 视 化 .数据 分 析 以 及 数值 计算 的 高 级 计算 语言 和 交 
互 式 环境 ,主要 包括 MATLAB 和 Simulink 两 大 部 分 , 主 界面 如 图 1-6 所 示 。 


File Edit Debug Desktop Yindow Help 
DB|% ~ | 新 | 9 | we 
Shortcuts 加 How to Add [2] Whats New 


To get started, select MATLAB Help or Denos fron the Help menu- 


The elenent type "nane” must be terninated by the matching end-tag “< 
Could not parse the file: d:\matlab?\toolbox\ccslink\ccslink\info. xnl 


+6 MATLAB 的 界面 


MATLAB 的 基本 数据 单位 是 矩阵 , 它 的 指令 表达 式 与 数学 .工程 中 常用 的 形式 十 分 相 
似 , 故 用 MATLAB 来 解 算 问题 要 比 用 C,FORTRAN 等 语言 完成 相同 的 事情 简捷 得 多 ,并 
且 MATLAB 也 吸收 了 Maple 等 软件 的 优点 ,使 MATLAB 成 为 一 个 强大 的 数学 软件 。 在 
新 的 版 本 中 也 加 入 了 对 C.FORTRAN、C++ 、Java 的 支持 ,可 以 直接 调用 ,用 户 也 可 以 将 自 
己 编写 的 实用 程序 导入 到 MATLAB 函数 库 中 ,方便 自己 以 后 调用 。 

MATLAB 的 应 用 范围 非常 广 ,包括 信号 和 图 像 处 理 . 通信、 控制 系统 设计 、 测 试 和 测 
量 、 财 务 建 模 和 分 析 以 及 计算 生物 学 等 众多 应 用 领域 。 附 加 的 工具 箱 ( 单 独 提供 的 专用 
MATLAB 函数 集 ) 扩 展 了 MATLAB 环境 ,以 解决 这 些 应 用 领域 内 特定 类 型 的 问题 。 
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本 章 重 点 介绍 了 数据 挖掘 技术 的 相关 概念 ,包括 数据 挖掘 的 由 来 ,数据 挖掘 的 定义 、 数 
据 挖掘 的 功能 和 数据 挖掘 的 常用 技术 。 然 后 ,介绍 了 数据 仓库 的 基本 概念 ,包括 数据 仓库 的 
产生 与 发 展 ,数据 仓库 的 定义 ,数据 仓库 和 数据 挖掘 的 关系 。 接 着 ,通过 有 说 服 力 的 数据 挖 
掘 应 用 实例 ,使 读者 进一步 体会 到 应 用 数据 挖掘 技术 的 必要 性 。 最 后 ,介绍 了 数据 挖掘 常用 
工具 及 其 特点 ,以 方便 读者 选择 适合 的 数据 挖掘 工具 。 


习题 1 
1. 数据 挖掘 技术 涉及 哪些 技术 领域 ? 


2. 数据 挖掘 的 源 数据 是 否 必 须 是 数据 仓库 的 数据 ? 可 以 有 哪些 来 源 ? 
和 


. 数据 挖掘 的 具体 功能 有 哪些 ? 

数据 挖掘 技术 主要 包含 哪 几 种 ? 

. 数据 挖掘 的 过 程 包括 哪些 步骤 ,每 一 步 具 体 包 括 哪些 内 容 ? 
. 数据 挖掘 可 以 应 用 在 哪些 领域 ? 

. 数据 库 与 数据 仓库 的 本 质 区 别 是 什么 ? 

. 举例 说 明 数据 挖掘 与 数据 仓库 的 关系 。 

. 举例 说 明 数据 挖掘 从 数据 仓库 中 挖掘 的 信息 有 哪些 ? 

10. 搜索 数据 挖掘 的 应 用 实例 。 

11. 数据 挖掘 工具 的 主要 指标 有 哪些 ? 

12. 常用 数据 挖掘 工具 有 哪些 ? 各 有 什么 特点 ? 
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第 2 音 数据 仓库 


数据 仓库 (data warehouse,DW) 是 一 种 环境 ,不 是 一 种 产品 。 它 包括 电子 邮件 文档 、 语 
音 文档 .CD-ROM、 多 媒体 信息 以 及 还 未 考虑 到 的 数据 。 数 据 仓库 中 的 数据 并 非 是 最 新 的 、 
专 有 的 ,而 是 来 源 于 其 他 的 数据 库 。 数 据 仓库 的 建立 并 不 是 要 取代 原 有 的 数据 库 , 而 是 建立 
在 一 个 较 全 面 .完善 的 信息 应 用 的 基础 上 ,用 于 支持 高 层 决策 分 析 。 


2.1 数据 仓库 的 基本 概念 


数据 仓库 是 一 个 环境 ,而 不 是 一 件 产品 ,提供 用 户 用 于 决策 支持 的 当前 的 和 历史 的 数 
据 , 这 些 数据 在 传统 的 操作 型 数据 库 中 很 难 或 不 能 得 到 。 

传统 的 数据 库 系统 面向 以 事务 处 理 为 主 的 联机 处 理 系 统 的 应 用 ,不 能 满足 决策 支持 系 
统 (decision sustain system,DSS) 的 分 析 要 求 。 事 务 处 理 和 分 析 处 理 具 有 不 相同 的 性 质 , 因 
而 两 者 对 数据 也 有 着 不 同 的 要 求 。W. H. Inmon 在 其 (建立 数据 仓库 》 一 书 中 , 列 出 了 操作 
型 数据 与 分 析 型 数据 之 间 的 区 别 , 如 表 2-1 所 示 。 


表 2-1 操作 型 数据 与 分 析 型 数据 的 区 别 


操作 型 数据 分 析 型 数据 
细节 的 综合 的 或 提炼 的 
在 存 取 瞬间 是 准确 的 代表 过 去 的 数据 
可 更 新 不 更 新 
操作 需求 事先 可 知道 操作 需求 事先 不 知道 
生命 周期 符合 软件 生命 周期 完全 不 同 的 生命 周期 
对 性 能 要 求 高 对 性 能 要 求 宽松 
一 个 时 刻 操 作 一 单元 一 个 时 刻 操作 一 集合 
事务 驱动 分 析 驱 动 
面向 应 用 面向 分 析 
一 次 操作 数据 量 小 一 次 操作 数据 量 大 
支持 日 常 操作 支持 管理 需求 


上 述 操作 型 数据 与 分 析 型 数据 之 间 的 差别 从 根本 上 体现 了 事务 处 理 与 分 析 处 理 的 差 
异 。 传 统 的 数据 库 系 统 主要 用 于 企业 的 日 常事 务 处 理工 作 , 存 放 在 数据 库 中 的 数据 也 就 大 
体 符合 操作 型 数据 的 特点 。 而 为 适应 数据 分 析 处 理 要 求 而 产生 的 数据 仓库 中 所 存放 的 数据 
就 应 该 是 分 析 型 的 数据 。 表 2-1 中 所 列 出 的 分 析 型 数据 的 特点 可 以 概括 为 4 点 ,也 就 是 数 
据 仓库 数据 的 4 个 基本 特征 : 

(1) 数据 仓库 的 数据 是 面向 主题 的 ; 

(2) 数据 仓库 的 数据 是 集成 的 ; 

(3) 数据 仓库 的 数据 是 不 可 更 新 的 ; 
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(4) 数据 仓库 的 数据 是 随时 间 不 断 变 化 的 。 

可 以 概括 地 定义 ,数据 仓库 就 是 一 个 用 以 更 好 地 支持 企业 或 组 织 的 决策 分 析 处 理 的 、 面 
向 主题 的 、 集 成 的 .不 可 更 新 的 、 随 时 间 不 断 变化 的 数据 集合 。 下 面 着 重 来 讨论 数据 仓库 数 
据 的 4 个 基本 特征 。 

1. 数据 仓库 的 数据 是 面向 主题 的 

传统 数据 库 是 面向 应 用 的 ,为 每 个 单独 的 应 用 程序 组 织 数据 。 数 据 仓 库 中 的 数据 是 面 
向 主题 进行 组 织 的 ;面向 主题 性 是 数据 仓库 中 数据 组 织 的 基本 原则 ,数据 仓库 中 的 所 有 数据 
都 是 围绕 着 某 一 主题 组 织 、 展 开 的 。 

(1) 主题 的 概念 。 主 题 是 一 个 抽象 的 概念 ,是 在 较 高 层次 上 将 企业 信息 系统 中 的 数据 
综合 . 归 类 并 进行 分 析 利 用 的 抽象 ,在 逻辑 关系 上 , 它 对 应 企业 中 某 一 宏观 分 析 领 域 所 涉及 
的 分 析 对 象 。 面 向 主题 的 数据 组 织 方式 ,就 是 在 较 高 层次 上 对 分 析 对 象 数据 的 一 个 完整 ,一 
致 的 描述 ,能 完整 .统一 地 刻画 各 个 分 析 对 象 所 涉及 的 企业 各 项 数据 ,以 及 数据 之 间 的 联系 。 

从 信息 管理 的 角度 看 ,主题 就 是 在 一 个 较 高 的 管理 层次 上 对 信息 系统 中 的 数据 按照 某 
一 具体 的 管理 对 象 进行 综合 、 归 类 所 形成 的 分 析 对 象 。 

从 数据 组 织 的 角度 看 ,主题 就 是 一 些 数 据 集合 ,这 些 数据 集合 对 分 析 对 象 进行 了 比较 完 
整 的 一致 的 数据 描述 ,这 种 描述 不 仅 涉及 数据 自身 ,还 涉及 数据 之 间 的 关系 。 

数据 仓库 的 创建 ,使 用 都 是 围绕 主题 实现 的 ,因此 ,必须 了 解 如 何 按照 决策 分 析 来 抽取 
主题 ,所 抽取 的 主题 应 该 包含 哪些 数据 内 容 , 这 些 数据 内 容 应 该 如 何 组 织 。 

例如 ,在 企业 销售 管理 中 的 管理 人 员 ,所 关心 的 是 ,本 企业 哪些 产品 销售 量 大 、 利 润 高 ， 
哪些 客户 采购 的 产品 数量 多 ,竞争 对 手 的 哪些 产品 对 本 企业 产品 构成 威胁 ,根据 这 些 管理 决 
策 的 分 析 对 象 ,就 可 以 抽取 出 “产品 “客户” 等 主题 。 

(2) 主题 划分 的 原则 。 在 划分 主题 时 必须 保证 每 个 主题 的 独立 性 ,每 一 个 主题 要 具有 
独立 的 内 涵 , 明 确 的 界限 。 在 划分 主题 时 ,需要 保证 对 主题 进行 分 析 时 所 需 的 数据 都 可 以 在 
此 主题 内 找到 ,保证 主题 的 完备 性 。 

确定 主题 以 后 ,需要 确定 主题 应 该 包含 的 数据 ,此 时 应 该 注意 不 能 将 围绕 主题 的 数据 与 
业务 处 理 系统 的 数据 相 混 淆 。 

在 主题 的 数据 组 织 中 应 该 注意 ,不 同 的 主题 之 间 可 能 出 现 相互 重 释 的 信息 ,这 种 主 
题 间 重 释 是 逻辑 的 ,而 不 是 同一 数据 内 容 的 物理 存储 重复 。 例 如 , “客户 ”主题 与 “产品 ” 
主题 在 产品 购买 信息 方面 有 相互 重 释 的 信息 ,是 源 于 客户 和 产品 都 有 关 的 销售 业务 处 理 
系统 。 

需要 指出 一 点 ,目前 数据 仓库 仍 是 采用 关系 数据 库 技术 来 实现 的 ,也 就 是 说 数据 仓库 的 
数据 最 终 也 表现 为 关系 。 

(3) 主题 划分 的 实例 。 为 了 更 好 地 理解 主题 与 面向 主题 的 概念 ,说 明 面 向 主题 的 数据 
组 织 与 传统 的 面向 应 用 的 数据 组 织 方式 的 不 同 。 例 如 : 一 家 采用 “会 员 制 ”经营 方式 的 商 
场 , 按 业务 已 建立 起 销售 .采购 .库存 管理 以 及 人 事 管 理子 系统 。 

Q@ 面向 应 用 的 数据 组 织 。 该 商场 按照 不 同 的 应 用 建立 了 各 自 的 数据 库 模式 ,各 子 系统 
建立 数据 库 情况 如 表 2-2 所 示 。 

@ 面向 主题 的 数据 组 织 。 按 照 面 向 主题 的 方式 ,数据 的 组 织 应 该 分 为 两 个 步骤 : 抽取 
主题 以 及 确定 每 个 主题 所 应 包含 的 数据 内 容 。 
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表 2-2 各 子 系统 建立 数据 库 情 况 


子 系统 数据 库 名称 数据 字段 
顾客 顾客 号 ,姓名 ,性 别 , 年 龄 ,文化 程度 ,地 址 ,电话 
销售 子 系统 
销售 员工 号 ,顾客 号 ,商品 号 ,数量 ,单价 ,日 期 
订单 订单 号 ,供应 商号 ,总 金额 ,日 期 
采购 子 系统 订单 细则 订单 号 ,商品 号 ,类 别 , 单 价 ,数量 
供应 商 供应 商号 ,供应 商 名 ,地 址 ,电话 
领 料 单 领 料 单 号 , 领 料 人 ,商品 号 ,数量 ,日 期 
进 料 单 进 料 单 号 ,订单 号 , 进 料 人 , 收 料 人 ,日 期 
库存 管理 子 系 统 
库存 品 号 ,库房 号 ,库存 量 , 日 期 
库房 库房 号 ,仓库 管理 员 , 地 点 ,库存 商品 描述 
员工 员工 号 ,姓名 ,性 别 ,年 龄 ,文化 程度 ,部 门 号 
人 事 管 理子 系统 
部 门 部 门 号 ,部 门 名 称 , 部 门 主管 ,电话 


主题 的 抽取 是 按照 分 析 的 要 求 来 确定 的 。 概 括 各 种 分 析 领 域 的 分 析 对 象 ,可 以 综合 得 
到 主题 。 上 例 的 主题 应 包括 供应 商 、 商 品 、\ 顾 客 等 。 每 个 主题 有 着 各 自 独 立 的 逻辑 内 涵 ,对 
应 了 一 个 分 析 对 象 。 按 照 面 向 主题 的 数据 组 织 如 表 2-3 所 示 。 


表 2-3 面向 主题 的 数据 组 织 


主 题 信息 类 数据 字段 
商品 固有 信息 商品 号 , 商品 名 , 类 别 , 颜色 

岳 攻 商品 采购 信息 商品 号 , 供应 商号 , 供应 价 , 供应 日 期 , 供应 量 
商品 销售 信息 商品 号 , 顾客 号 , 售 价 , 销售 日 期 销售 量 
商品 库存 信息 商品 号 , 库房 号 , 库存 量 , 日 期 

供应 商 供应 商 固有 信息 供应 商号 , 供应 商 名 , 地 址 , 电话 
供应 商品 信息 供应 商号 , 商品 号 , 供应 价 , 供应 日 期 , 供应 量 

大 这 顾客 固有 信息 顾客 号 , 顾客 名 , 性 别 , 年 龄 , 文化 程度 , 住址 , 电话 
顾客 购物 信息 顾客 号 , 商品 号 , 售 价 . 购买 日 期 , 购买 量 


以 “商品 ”主题 为 例 ,关于 商品 的 各 种 信息 已 综合 在 “商品 ”主题 中 ,包含 了 商品 的 固有 信 
息 (商品 名 称 、 商 品类 别 、 型 号 和 颜色 等 商品 的 描述 信息 ) 和 商品 的 流动 信息 (商品 采购 信息 、 
商品 销售 信息 及 商品 库存 信息 )。 丢 弃 了 原来 不 必要 的 ,不 适 于 分 析 的 信息 ,如 有 关 订单 、 领 
料 单 等 信息 ;并 将 原来 分 散在 不 同 数据 库 中 的 商品 信息 集成 在 一 起 ,形成 了 关于 商品 一 致 的 
信息 集合 。 

不 同 的 主题 之 间 有 重 又 的 内 容 , 例 如 “商品 "主题 的 商品 销售 信息 同 “ 顾 客 ” 主 题 的 顾客 
购物 信息 有 些 数 据 字 段 是 相同 的 ,这 表现 了 “顾客 "和 “商品 ”这 两 个 主题 之 间 的 联系 ;同样 ， 
“商品 ”主题 中 有 些 信息 同 “供应 商 ” 主 题 中 的 某 些 信息 相同 ,这 表现 的 是 “商品 ”和 “供应 商 ” 
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之 间 的 联系 。 但 主题 间 的 重 释 并 不 是 两 两 重 倒 ,如 “供应 商 " 和 “顾客 "主题 间 是 没有 重 从 内 
容 的 ,这 表现 了 “供应 商 " 和 “顾客 "之 间 不 发 生 直接 的 联系 ,而 
是 通过 “商品 ”主题 来 表现 它们 之 间 的 间接 联系 。“ 商 品 ”“ 顾 
客 " 和 “供应 商 ” 这 3 个 主题 间 的 关系 如 图 2-1 所 示 。 

一 个 主题 可 以 划分 成 多 个 表 , 基 于 一 个 主题 的 所 有 表 都 
含有 一 个 称 为 公共 码 键 的 属性 作为 其 主 码 的 一 部 分 。 公 共 码 
键 将 各 个 表 统一 联系 起 来 ,体现 它们 是 属于 一 个 主题 的 。 如 
“商品 ”主题 的 “商品 号 ”就 是 公共 码 键 。 图 21 主题 间 的 重合 关系 

2. 数据 仓库 的 数据 是 集成 的 

数据 仓库 的 数据 是 从 原 有 分 散 的 数据 库 .数据 文件 和 数据 段 中 抽取 来 的 ,数据 来 源 可 能 
既 有 内 部 数据 又 有 外 部 数据 。 面 向 应 用 的 数据 与 面向 主题 的 数据 之 间 差 别 很 大 。 因 此 ,在 
数据 进入 数据 仓库 之 前 ,必然 要 经 过 转换 、 统 一 与 综合 。 这 一 步 是 数据 仓库 建设 中 最 关键 、 
最 复杂 的 一 步 。 

(1) 统一 源 数据 

面向 应 用 的 设计 人 员 经 过 多 年 的 不 同 设计 会 有 许多 不 同 的 表示 方法 ,不 同 的 设计 人 员 
也 会 采用 不 同 的 表示 ,没有 一 个 统一 的 标准 。 例 如 ,表示 性 别 ,可 以 用 “ 男 ”“ 女 ”, 也 可 以 用 
Y\Z 等。 因此 , 当 数 据 进入 数据 仓库 时 ,必须 消除 面向 应 用 的 数据 的 不 一 致 性 ,将 源 数据 
统一 


顾客 供应 商 


统一 源 数据 的 内 容 如 下 : 
Oa 命名 规则 ; 
@ 编码 ; 
@ 数据 特征 ; 
@ 度量 单位 。 
(2) 综合 和 计算 。 许 多 情况 下 ,在 从 原 有 数据 库 抽取 数据 生成 数据 仓库 时 ,并 不 仅仅 是 
原封 不 动 地 “复制 "过 来 ,而 需要 进行 综合 和 计算 。 例 如 ,上 例 中 销售 子 系统 的 “销售 "数据 库 
按照 顾客 每 一 次 的 购买 作为 一 条 记录 。 而 在 数据 仓库 中 顾客 主题 的 “顾客 购物 信息 ”中 ,可 
以 按 天 、 周 、 月 等 组 织 数据 。 很 明显 ,这 种 情况 就 需要 对 数据 进行 计算 和 综合 。 

数据 仓库 中 的 数据 综合 工作 可 以 在 从 原 有 数据 库 抽取 数据 时 生成 ,但 许多 是 在 数据 仓 
库 内 部 生成 的 , 即 进入 数据 仓库 以 后 进行 综合 生成 的 。 

3. 数据 仓库 的 数据 是 不 可 更 新 的 

从 操作 型 系统 中 提取 的 数据 和 从 外 部 数据 源 中 提取 的 数据 ,在 数据 仓库 中 被 转换 、 综 合 
并 存储 。 数 据 仓 库 的 数据 主要 供 企业 决策 分 析 之 用 ,不 是 用 来 进行 日 常 操作 ,一 般 只 保存 过 
去 的 数据 ,而 且 不 是 随 着 源 数 据 的 变化 实时 更 新 ,数据 仓库 中 的 数据 一 般 不 青 修 改 。 所 涉及 
的 数据 操作 主要 是 数据 查询 ,只 定期 进行 数据 加 载 . 数 据 追 加 ,一 般 情况 下 并 不 进行 修改 
操作 。 

由 于 数据 仓库 的 数据 是 不 可 更 新 的 ,因此 ,也 称 其 为 具有 非 易 失 性 或 非 易 变性 。 这 种 不 
可 更 新 性 可 以 支持 不 同 的 用 户 在 不 同 的 时 间 查 询 相 同 的 问题 时 获得 相同 的 结果 。 
4. 数据 仓库 的 数据 是 随时 间 不 断 变 化 的 
(1) 数据 仓库 的 数据 随时 间 变 化 。 数 据 仓库 中 的 数据 不 可 更 新 是 针对 应 用 来 说 的 , 即 

有 全 入 河 


数据 仓库 的 用 户 进行 分 析 处 理 时 是 不 进行 数据 更 新 操作 的 。 但 并 不 是 说 ,在 从 数据 集成 输 
入 数据 仓库 开始 到 最 终 被 删除 的 整个 数据 生存 周期 中 ,所 有 的 数据 仓库 数据 都 是 永远 不 
变 的 。 

数据 仓库 的 数据 随时 间 的 不 断 变 化 主要 体现 在 数据 仓库 随时 间 变 化 不 断 增加 新 的 数据 
内 容 , 删 去 旧 的 数据 内 容 ,数据 仓库 中 所 包含 的 综合 数据 经 常 按照 时 间 段 进行 综合 , 隔 一 定 
的 时 间 片 进行 抽样 等 重新 综合 。 

因此 ,数据 仓库 数据 的 码 键 都 包含 时 间 项 ,以 标明 数据 的 历史 时 期 。 

(2) 数据 仓库 的 数据 追加 。 如 何 定期 向 数据 仓库 追加 数据 也 是 一 个 十 分 重要 的 技术 。 
数据 仓库 的 数据 加 载 完 成 后 , 再 向 数据 仓库 输入 数据 的 过 程 称 为 数据 追加 。 数 据 追 加 的 内 
容 仅 限 于 上 次 向 数据 仓库 输入 后 原来 数据 库 中 变化 了 的 数据 。 因 此 ,要 完成 数据 追加 ,必需 
能 够 明确 哪些 数据 是 在 上 一 次 追加 过 程 之 后 新 生成 的 ,这 项 工作 称 为 变化 数据 的 捕捉 。 捕 
捉 变 化 数据 的 常用 方法 如 下 。 

QO 时 标 方 法 。 如 果 数 据 含有 时 标 ,那么 只 需 根 据 时 标 即 可 判断 哪些 数据 是 上 次 追加 后 
变化 了 。 但 许多 数据 库 中 的 数据 并 不 含有 时 标 。 

@ DELTA 文件 。DELTA 文件 是 由 应 用 生成 的 ,记录 了 应 用 改变 的 所 有 内 容 。 利 用 
DELTA 文件 ,效率 比较 高 ,避免 了 扫描 整个 数据 库 , 但 生成 DELTA 文件 的 应 用 并 不 普遍 。 

@ 前 后 映像 文件 的 方法 。 将 抽取 数据 到 数据 仓库 时 的 数据 库 单独 “保存 ”( 称 之 为 “ 快 
照 ”) ,在 下 一 次 抽取 数据 库 数据 时 ,对 数据 库 再 作 一 次 快照 。 比 较 前 后 两 幅 快 照 的 不 同 ,从 
而 确定 实现 数据 仓库 追加 的 数据 。 这 种 方法 需 占 用 大 量 资源 。 

@ 日 志文 件 。 日 志文 件 是 数据 库 的 固有 机 制 , 不 会 额外 增加 工作 量 和 占用 系统 资 
源 。 提 取 数 据 只 局 限于 日 志文 件 , 不 用 扫描 整个 数据 库 ; 当然, 原来 日 志文 件 的 格式 是 依 
据 数 据 库 系统 的 要 求 而 确定 的 , 它 包 含 的 数据 对 于 数据 仓库 而 言 可 能 有 许多 元 余 , 如 对 
一 个 记录 的 多 次 更 新 .日 志文 件 将 全 部 变化 过 程 都 记录 下 来 ,而 对 于 数据 仓库 ,只 需要 最 
终结 果 。 因 此 ,在 利用 日 志文 件 进行 数据 仓库 的 数据 追加 时 ,同样 需要 进行 数据 的 转换 、 
综合 和 鉴别 等 。 

传统 数据 库 在 联机 事物 处 理 中 取得 了 较 大 的 成 功 ,但 在 基于 事物 处 理 的 数据 库 帮 助 决 
策 分 析 时 却 产生 了 很 大 的 困难 。 主 要 原因 是 传统 数据 库 的 处 理 方式 和 决策 分 析 中 的 数据 需 
求 不 相称 ,导致 传统 数据 库 无 法 支持 决策 分 析 活 动 。 这 些 不 相称 主要 体现 在 决策 处 理 的 响 
应 较 慢 ,决策 数据 需求 得 不 到 满足 ,决策 数据 操作 不 能 满足 用 户 的 需求 等 。 

数据 仓库 虽然 是 从 数据 库 发 展 而 来 的 ,但 是 两 者 在 许多 方面 存在 着 相当 大 的 差异 ( 见 
表 2-4) 。 从 数据 存储 内 容 看 ,数据库 只 存放 当前 值 , 而 数据 仓库 则 存放 历史 值 ; 数 据 库 中 数 
据 的 目标 是 面向 业务 操作 人 员 的 ,为 业务 处 理 人 员 提 供 信息 处 理 的 支持 ,而 数据 仓库 则 是 面 
向 中 高 层 管理 人 员 的 ,为 其 提供 决策 支持 。 数 据 库 内 数据 是 动态 变化 的 ,只 要 有 业务 发 生 ， 
数据 就 会 被 更 新 ,而 数据 仓库 则 是 静态 的 历史 数据 ,只 能 定期 添加 、 刷 新 。 数 据 库 中 的 数据 
结构 比较 复杂 ,有 各 种 结构 以 适合 业务 处 理 系 统 的 需要 ,而 数据 仓库 中 数据 的 结构 则 相对 简 
单 。 数 据 库 中 数据 访问 频率 较 高 ,但 访问 量 较 少 ,而 数据 仓库 的 访问 频率 较 低 但 访问 量 却 远 
高 于 数据 库 的 访问 量 。 数 据 库 在 访问 数据 时 要 求 响应 速度 快 ,其 响应 时 间 一 般 在 几 秒 内 ,而 
数据 仓库 的 响应 时 间 则 可 长 达 数 小 时 。 
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表 2-4 数据 仓库 与 数据 库 对 比 


对 比 内 容 数 据 库 数据 仓库 

数据 内 容 当前 值 历史 的 存档 的 .归纳 的 、. 计 算 的 数据 
数据 目标 面向 业务 操作 程序 ,重复 处 理 面向 主题 域 , 分 析 应 用 

数据 特性 动态 变化 , 按 字 段 更 新 静态 .不 能 直接 更 新 ,只 能 定时 添加 、 刷 新 
数据 结构 高 度 结构 化 、 复 杂 , 适 合 操 作 计算 简单 、 适 合 分 析 

使 用 频率 较 高 中 到 低 

数据 访问 量 每 个 事物 只 访问 少量 记录 有 的 事物 可 能 需要 访问 大 量 记录 

响应 要 求 以 秒 为 单位 时 间 长 


2.2 数据 仓库 的 体系 结构 


数据 仓库 体系 结构 可 用 图 2-2 表示 。 由 于 数据 库 和 数据 仓库 应 用 的 出 发 点 不 同 , 数 据 
仓库 将 独立 于 业务 数据 库 系统 ,但 是 数据 仓库 又 同业 务 数据 库 系 统 息息相关 。 也 就 是 说 数 
据 仓库 不 是 简单 地 对 数据 进行 存储 ,而 是 对 数据 进行 “再 组 织 "。 数 据 仓 库 的 体系 结构 框架 
是 影响 数据 仓库 性 能 的 关键 因素 之 一 ,数据 仓库 的 体系 结构 框架 决定 了 数据 加 载 .访问 和 传 
递 的 方式 。 在 确定 数据 仓库 结构 时 需要 考虑 最 终 用 户 和 数据 使 用 部 门 的 数目 、 数 据 的 多 样 
性 和 数量 、 更 新 周期 以 及 存储 访问 的 速度 。 在 数据 仓库 体系 结构 中 应 该 设计 三 个 独立 的 数 
据 层 次 : 信息 获取 层 \、 信 息 存 储 层 和 信息 传递 层 。 信 息 获 取 层 负责 数据 的 收集 ,提取 、 净 化 
和 聚合 ,以 及 从 外 部 数据 源 和 业务 处 理 系 统 中 获取 数据 。 这 些 数据 应 该 是 准确 的 ,并 且 要 被 
用 于 各 个 部 门 进行 决策 支持 ,因此 需要 有 通用 的 含义 。 信 息 存 储 层 是 一 个 保存 数据 的 区 域 ， 
这 些 信息 是 在 信息 传递 层次 中 可 以 得 到 的 信息 。 支 持 集成 传递 所 必需 的 性 能 要 求 之 一 就 是 
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灵活 性 ,在 数据 仓库 体系 结构 中 需要 利用 信息 传递 层 来 实现 灵活 性 。 信 息 传递 层 通过 生成 
的 报表 和 查询 来 提供 数据 需求 。 这 是 最 终 用 户 与 数据 仓库 交流 的 层次 ,也 是 数据 仓库 与 用 
户 接触 的 地 点 。 

数据 仓库 中 的 数据 可 分 为 多 个 级 别 。 下 例 中 的 数据 仓库 的 数据 分 为 4 个 级 别 : 早期 细 
节 级 、 当 前 细节 级 、 轻 度 综合 级 和 高 度 综合 级 。 源 数据 经 过 综合 后 ,首先 进入 当前 细节 级 ,并 
根据 具体 需要 进行 进一步 的 综合 从 而 进入 轻 度 综合 级 乃至 高 度 综 合 级 ,老化 的 数据 将 进入 
早期 细节 级 。 数 据 仓库 中 存在 着 的 不 同 综合 级 别 ,将 其 称 之 为 粒度 (granularity)。 数 据 仓 
库 的 数据 组 织 结构 如 图 2-3 所 示 。 
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从 图 2-3 可 见 ,数据 仓库 组 织 结构 中 有 一 部 分 重要 数据 是 元 数据 。 元 数据 是 “关于 数据 
的 数据 ,如 传统 数据 库 中 的 数据 字典 就 是 一 种 元 数据 。 在 数据 仓库 中 ,元 数据 的 内 容 比 数 
据 库 中 的 数据 字典 更 丰富 、 更 复杂 。 元 数据 作为 数据 的 数据 ,可 对 数据 仓库 中 的 各 种 数据 进 
行 详细 的 描述 与 说 明 ,说 明 每 个 数据 的 上 下 文 关系 ,使 每 个 数据 具有 符合 现实 的 真实 含义 ， 
使 最 终 用 户 了 解 这 些 数据 之 间 的 关系 。 

1. 元 数据 在 数据 仓库 中 的 作用 

(1) 为 决策 支持 系统 分 析 员 和 高 层 决策 人 员 服 务 提供 便利 。 数 据 仓 库 元 数据 的 广义 索 
引 中 存 有 每 次 数据 装载 时 产生 的 有 关 决 策 的 数据 项 ,在 做 决策 时 ,可 以 先 查 询 该 部 分 数据 ， 
再 决定 是 否 进行 进一步 的 搜索 。 

(2) 解决 面向 应 用 的 操作 型 环境 和 数据 仓库 的 复杂 关系 。 从 面向 应 用 的 操作 型 环境 到 
数据 仓库 的 转换 是 复杂 的 多 方面 的 ,元 数据 包括 对 这 种 转换 的 描述 。 即 包含 了 所 有 源 数 据 
项 名 、 属 性 及 其 在 数据 仓库 中 的 转换 。 

2. 元 数据 的 使 用 

(1) 元 数据 在 数据 仓库 开发 期 间 的 使 用 。 数 据 仓 库 的 开发 过 程 是 一 个 构造 工程 的 过 
程 ,必须 提供 清晰 的 文档 。 这 个 过 程 产生 的 元 数据 主要 描述 DW 目录 表 的 每 个 运作 的 模 
式 ,数据 的 转化 ,净化 ,转移 、 概 括 和 综合 的 规则 与 处 理 规则 。 

(2) 元 数据 在 数据 源 抽取 中 的 作用 。 元 数据 对 多 个 来 源 的 数据 集成 发 挥 着 关键 作用 。 
利用 元 数据 可 以 确定 将 数据 源 的 哪些 资源 加 载 到 DW 中 ;跟踪 历史 数据 结构 变化 过 程 ; 描 
述 属性 到 属性 的 映射 .属性 转换 等 。 
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(3) 元 数据 在 数据 清理 与 综合 中 的 使 用 。 数 据 清理 与 综合 负责 净化 资源 中 的 数据 、 增 
加 资源 蕉 和 时 间 截 ,将 数据 转换 为 符合 数据 仓库 的 数据 格式 ,计算 和 综合 数据 的 值 。 元 数据 
在 这 个 过 程 中 作为 清理 和 综合 数据 的 依据 。 

3. 元 数据 的 分 类 

从 不 同 的 角度 可 以 有 多 种 分 类 。 

(1) 按 元 数据 的 类 型 。 按 元 数据 的 类 型 可 以 分 为 关于 基本 数据 (数据 源 、 数 据 仓 库 、 应 
用 程序 管理 ) 的 元 数据 ,用 于 数据 处 理 ( 数 据 装载 .更 新 处 理 、 分 析 处 理 、 数 据 抽取 转换、 聚合 
规则 等 ) 的 元 数据 和 关于 企业 组 织 结构 (用 户 、 用 户 权 限 等 ) 的 元 数据 。 

(2) 按 抽象 级 别 。 按 抽象 级 别 可 以 分 为 概念 级 (业务 的 全 部 描述 ) .逻辑 级 (数据 库 的 关 
系 方案 ,人 逻辑 多 维 模型 等 ) 和 物理 级 (业务 规则 相应 的 SQL 代码 ,关系 的 索引 文件 ,分 析 应 用 
的 代码 ) 的 元 数据 。 

(3) 按 元 数据 承担 的 任务 。 按 元 数据 承担 的 任务 可 以 分 为 静态 元 数据 (数据 结构 有 关 ， 
如 名 称 、 格 式 等 ) 和 动态 元 数据 (数据 的 状态 与 使 用 方法 )。 

(4) 从 用 户 的 角度 。 从 用 户 的 角度 对 元 数据 分 类 没有 一 个 统一 的 标准 ,往往 与 元 数据 
的 使 用 目的 相关 。 一 般 分 为 技术 元 数据 和 业务 元 数据 两 类 。 技 术 元 数据 是 关于 开发 .维护 
和 管理 信息 技术 环境 中 所 有 的 分 析 、 设 计 、 开 发 .管理 等 与 技术 关系 密切 的 元 数据 ; 它 是 连接 
开发 工具 、 应 用 程序 和 系统 的 技术 纽带 。 业 务 元 数据 则 使 企业 环境 的 服务 更 易于 为 终端 用 
户 所 理解 ; 它 为 业务 目标 和 过 程 的 解释 提供 便捷 的 浏览 导航 和 数据 查询 。 

4. 元 数据 的 内 容 

(1) 数据 源 的 元 数据 如 下 : 

QO 每 个 来 源 的 所 有 者 描述 信息 ; 

@ 每 个 来 源 的 业务 描述 信息 ; 

@ 原始 来 源 的 更 新 频率 ; 

@ 每 个 来 源 使 用 的 法 律 约束 ; 

@ 存 取 方法 、 存 取 权 利 、 特 权 , 以 及 来 源 的 存 取 口 令 ; 

@ 用 来 实现 抽取 过 程 的 程序 代码 ; 

@ 自动 抽取 工具 设置 ; 

@ 特定 抽取 作业 的 结果 信息 ,包括 抽取 时 间 、 抽 取 内 容 以 及 完成 情况 。 

(2) 数据 模型 的 元 数据 如 下 : 

QO@ 企业 概念 模型 ; 

@ DW 数据 模型 ; 

@ 数据 源 到 目标 的 映射 。 

(3) 数据 准备 区 元 数据 如 下 : 

Q@ 数据 传输 调度 以 及 特定 传输 的 结果 ; 

@ 数据 准备 区 文件 使 用 情况 ; 

@ 用 于 连接 来 源 、 删 除 字段 .查找 属性 的 作业 规范 ; 

@ 数据 清洗 规范 ; 

@ 数据 增强 和 映射 转换 ; 

@ DM 所 要 求 的 转换 (比如 解释 空 值 的 度量 值 ); 
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@ 目标 模式 设计 ,来源 到 目标 系统 的 数据 流 , 目 标 数据 的 所 有 者 ; 
聚集 定义 .聚集 使 用 统计 、 基 本 表 使 用 统计 ; 

数据 来 源 情 况 和 审核 检查 记录 (该 记录 真正 来 自 何 地 、 何 时 ); 
@ 数据 转换 运行 时 间 ; 

@ 数据 转换 软件 的 版 本 号 ; 

@ 数据 抽取 处 理 的 业务 描述 ; 

@@ 有 关 抽 取 文 件 、 软 件 以 及 元 数据 的 安全 性 设置 ; 

@ 数据 传输 的 安全 性 设置 ; 

四 数据 准备 区 的 存档 日 志和 恢复 程序 ; 

四 数据 准备 区 存档 的 安全 性 设置 。 

(4) 数据 库 管理 系统 元 数据 如 下 : 

@ 分 区 设置 ; 

@ 索引 ; 

@ 数据 库 管 理 系 统 层 次 的 安全 性 特权 与 授权 ; 

@ 视图 定义 ; 

@ 存储 过 程 与 SQL 管理 脚本 ; 

@ 数据 库 管 理 系 统 备份 状态 备份 程序 以 及 备份 安全 性 。 

(5) 前 台 元 数据 如 下 : 

@ 业务 名 称 和 有 关 列 、 表 以 及 分 组 的 描述 ; 

@ 现 有 的 查询 和 报告 定义 ; 

@ 连接 规范 ; 

@ 打印 工具 规范 ; 

@ 最 终 用 户 文档 ; 

@ 网 络 安 全 性 用 户 特 权 概 况 ; 

@ 网 络 安 全 性 身份 验证 证 书 ; 

@ 网 络 安 全 性 使 用 统计 ,包括 登录 尝试 、 存 取 尝 试 以 及 按 位 置 报告 的 用 户 标识 符 ; 
G@ 个 人 用 户 概况 ; 

@@ 有 关 数 据 源 、. 表 、 视 图 以 及 报告 的 使 用 及 存 取 映 射 。 


2.2.2 粒度 的 概念 


粒度 问题 是 数据 仓库 的 一 个 重要 概念 ,粒度 是 指数 据 仓库 的 数据 单位 中 保存 数据 细 化 
或 综合 程度 的 级 别 。 粒 度 影响 存放 在 数据 仓库 中 的 数据 量 大 小 ,同时 影响 数据 仓库 所 能 回 
答 查 询问 题 的 细节 程度 。 粒 度 可 以 分 为 两 种 形式 : 按时 间 段 综合 数据 的 粒度 和 按 采 样 率 高 
低 划 分 的 样本 数据 库 。 

1. 按时 间 段 综合 数据 的 粒度 

按时 间 段 综合 数据 的 粒度 是 对 数据 仓库 中 数据 综合 程度 的 高 低 度量 ,一 般 是 按照 不 同 
的 时 间 段 来 综合 数据 。 它 既 影 响 数据 仓库 中 数据 量 的 多 少 ,也 影响 数据 仓库 所 能 回答 询问 
的 种 类 。 粒 度 越 小 ,细节 程度 越 高 ,综合 程度 越 低 ,回答 查询 的 种 类 就 越 多 。 反 之 ,粒度 的 提 
高 将 会 提高 查询 效率 ,但 同时 也 造成 回答 细节 问题 能 力 下 降 。 
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为 适应 不 同 查询 的 需要 ,在 数据 仓库 中 经 常 是 建立 多 重 粒 度 , 如 图 2-3 的 实例 中 有 按 周 
综合 的 轻 度 综合 级 数据 和 按 月 综合 的 高 度 综合 级 数据 。 

2. 样本 数据 库 

与 通常 意义 的 粒度 不 同 , 样 本 数据 库 的 粒度 级 别 不 是 根据 综合 程度 的 不 同 来 划分 ,而 是 
根据 采样 率 的 高 低 来 划分 的 。 采 样 粒度 不 同 的 样本 数据 库 可 以 具有 相同 的 综合 级 别 , 一 般 
它 是 以 一 定 的 采样 率 从 细节 档案 数据 或 轻 度 综合 数据 中 抽取 的 一 个 子 集 。 

样本 数据 库 不 是 一 般 目 的 的 数据 库 , 它 是 根据 一 定 需求 从 源 数 据 中 的 一 个 抽样 。 抽 样 
的 方法 很 多 ,一 般 是 随机 抽取 。 样 本 数据 可 以 代替 源 数据 进行 模拟 分 析 , 经 验证 明 , 使 用 样 
本 数据 库 可 以 大 大 降低 实际 分 析 的 数据 量 ,提高 分 析 速 度 。 并 且 ,在 保证 一 定 抽 样 比例 的 情 
况 下 ,如 源 数据 量 的 1/100 或 1/1000, 得 出 的 分 析 结 果 误 差 极 小 。 分 析 的 目的 并 不 要 求 精 
确 的 结果 ,只 需要 建立 起 分 析 模 型 或 是 得 到 相对 准确 、 能 反映 趋势 的 数据 ,从 而 验证 用 户 的 
猜想 ,为 下 一 步 的 策略 确定 方向 或 对 当前 分 析 程 序 作 出 相应 调整 ,此 时 ,样本 数据 库 就 大 有 
用 武之 地 。 

样本 数据 库 的 抽取 可 以 按照 数据 的 重要 程度 不 同 来 进行 ,样本 数据 库 是 建立 在 不 同时 
点 上 的 粒度 。 


2.2.3 分 割 问题 


分 割 也 是 数据 仓库 中 的 一 个 重要 概念 , 它 是 指 将 数据 分 散 到 各 自 的 物理 单元 中 ,以 便 能 
独立 处 理 , 以 提高 数据 处 理 效 率 。 数 据 分 割 后 的 数据 单元 称 为 分 片 。 分 割 之 后 ,小 单元 内 的 
数据 相对 独立 ,处 理 起 来 更 快 、 更 容易 。 

一 般 在 进行 实际 的 分 析 处 理 时 ,对 于 存在 某 种 相关 性 的 数据 集合 的 分 析 是 最 常见 的 ,如 
对 某 一 时 间或 某 一 时 段 的 数据 的 分 析 ; 对 某 一 地 区 的 数据 的 分 析 ; 对 特定 业务 领域 的 数据 的 
分 析 等 ;将 具有 这 种 相关 性 的 数据 组 织 在 一 起 ,就 会 提高 效率 。 

数据 分 割 的 标准 可 以 根据 实际 情况 来 确定 ,通常 可 选择 按 日 期 .地 域 或 业务 领域 等 来 进 
行 分 割 ,也 可 以 按 多 个 分 割 标准 的 组 合 来 进行 ,但 一 般 情 况 分 割 标准 应 包括 日 期 项 。 

1. 分 割 的 优越 性 

分 割 之 后 有 以 下 优点 : 

(1) 容易 重 构 ; 

(2) 容易 重组 ; 

(3) 自由 索引 ; 

(4) 顺序 扫描 ; 

(5) 容易 恢复 ; 

(6) 容易 监控 。 

数据 仓库 的 本 质 之 一 就 是 灵活 地 访问 数据 ,大 块 数据 达 不 到 这 个 目的 。 

2. 数据 分 割 的 标准 

数据 分 割 的 标准 是 由 开发 人 员 选 择 的 ,在 数据 仓库 中 ,按时 间 分 割 是 必须 进行 的 。 有 具体 
有 以 下 几 种 : 

(1) 时 间 ; 

(2) 商业 领域 ; 
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(3) 地 理 位 置 (区 域 ); 

(4) 组 织 单位 (机 构 ); 

(5) 所 有 上 述 标准 。 

3. 分 割 的 层次 

分 割 的 层次 一 般 分 为 系统 层 和 应 用 层 两 层 。 系 统 层 的 分 割 由 数据 库 管理 系统 和 操作 系 
统 完 成 ;应 用 层 的 分 割 由 应 用 程序 完成 ,在 应 用 层 上 分 割 更 有 意义 。 


2.2.4 数据 仓库 中 的 数据 组 织 形式 


数据 仓库 中 的 数据 有 多 种 组 织 形式 ,下 面 简单 介绍 几 种 数据 仓库 中 常见 的 数据 组 织 形 
式 : 简单 堆积 结构 轮转 综合 结构 ,简化 直接 结构 和 连续 结构 。 

1. 简单 堆积 结构 

简单 堆积 结构 是 数据 仓库 中 最 常用 、 最 简单 的 数据 组 织 形式 。 它 从 面向 应 用 的 数据 库 
中 每 天 的 数据 提取 出 来 ,然后 按照 相应 的 主题 集成 为 数据 仓库 中 的 记录 。 在 此 ,关键 是 以 
“天 ”来 进行 集成 并 “堆积 ”"。 简 单 堆积 结构 数据 组 织 形式 如 图 2-4 所 示 。 
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2. 轮转 综合 结构 

在 轮转 综合 结构 中 ,数据 存储 单位 被 分 为 日 、 周 、 月 \ 年 等 几 个 级 别 。 在 一 星期 的 7 天 
中 ,数据 被 逐一 记录 在 每 日 数据 集中 ;然后 ,7 天 的 数据 被 综合 ,记录 在 周 数据 集中 ;在 下 一 
个 星期 ,日 数据 集 被 重新 使 用 ,以 记录 新 数据 。 同 理 , 周 数据 集 达 到 4 个 后 ,数据 再 一 次 被 综 
合并 记 入 月 数据 集 …… 以 此 类 推 。 轮 转 综合 结构 简捷 ,数据 量 比 简单 堆积 结构 大 大 减少 ;但 
损失 了 数据 细节 , 越 早 期 的 数据 ,细节 损失 越 多 。 轮 转 综合 结构 如 图 2-5 所 示 。 

3. 简单 直接 结构 

简单 直接 结构 类 似 于 简单 堆积 文件 ,但 不 是 每 天 集成 后 放 和 人 数据 仓库 ,而 是 间隔 一 定时 
间 间 隔 , 比 如 每 隔 一 星期 或 一 个 月 。 简 单 直接 结构 也 可 以 认为 是 按 一 定 的 时 间 间 隔 对 数据 
库 的 采样 。 简 单 直接 结构 数据 组 织 形式 如 图 2-6 所 示 。 

4. 连续 结构 

通过 两 个 或 更 多 连续 的 简单 直接 结构 数据 组 织 形式 的 文件 ,可 以 生成 另 一 种 连续 结构 
数据 组 织 形式 的 文件 。 连 续 结构 数据 组 织 形式 如 图 2-7 所 示 。 

对 于 各 种 文件 结构 的 最 终 实现 ,在 关系 数据 库 中 仍然 要 依靠 “ 表 ” 这 种 最 基本 的 结构 。 
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每 天 综合 


一 上 人 .= 每 天 数据 
[| 


面向 应 用 数据 库 

a 
第 天 第 天 .… 第 7 天 | 

7 天 综合 1 周 
第 1 周 第 ? 周 … 第 4 夺 | 

4 周 综合 ! 月 
第 1 月 ”第 2 月 … 第 12 月 | 

12 月 综合 ! 征 


第 ! 年 。 第 2 年 … 第 "年 
图 25 轮转 综合 结构 数据 组 织 形式 


面向 应 用 数据 库 1 月 份 数据 
图 26 简单 直接 结构 数据 组 织 形式 


1 月 份 数据 


| | 


~、 
a 


综合 


连续 结构 文件 


2 月 份 数据 
27 连续 结构 数据 组 织 形式 


2.3 数据 仓库 的 数据 模型 


数据 模型 是 对 现实 世界 进行 抽象 的 工具 ,抽象 的 程度 不 同 ,就 形成 不 同 抽象 级 别 层次 上 
的 数据 模型 。 数 据 仓 库 的 数据 模型 与 数据 库 的 数据 模型 有 所 不 同 ,主要 表现 如 下 : 

(1) 数据 仓库 的 数据 模型 中 不 包含 纯 操 作 型 的 数据 

(2) 数据 仓库 的 数据 模型 扩充 了 码 结构 ,增加 了 时 间 属 性 作为 码 的 一 部 分 ; 

(3) 数据 仓库 的 数据 模型 中 增加 了 一 些 导 出 数据 。 

上 述 3 点 差别 也 就 是 操作 型 环境 中 的 数据 与 数据 仓库 中 的 数据 之 间 的 差别 。 虽 然 存在 


着 这 样 的 差别 ,在 数据 仓库 设计 中 ,同样 存在 着 三 级 数据 模型 , 即 概念 数据 模型 .逻辑 数据 模 
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型 和 物理 数据 模型 。 
2.3.1 概念 数据 模型 


概念 数据 模型 是 主观 与 客观 之 间 的 桥梁 ,对 计算 机 系统 来 说 ,概念 数据 模型 是 客观 世界 
到 机 器 世界 的 一 个 中 间 层 次 。 人 们 首先 将 现实 世界 抽象 为 信息 世界 ,然后 将 信息 世界 转化 
为 机 器 世界 ,信息 世界 中 的 某 一 信息 结构 ,就 是 概念 数据 模型 。 

概念 数据 模型 最 常用 的 表示 方法 是 实体 一 联系 (E-R) 法 ,这 种 方法 用 E-R 图 作为 它 的 
描述 工具 ,E-R 图 描述 的 是 实体 以 及 实体 之 间 的 联系 。 由 于 E-R 图 具有 良好 的 可 操作 性 ， 
形式 简单 ,易于 理解 ,便于 与 用 户 交 流 , 对 客观 世界 的 描述 能 力 较 强 , 在 数据 库 设 计 方 面 得 到 
了 广泛 的 应 用 。 因 为 目前 的 数据 仓库 一 般 建 立 在 关系 数据 库 的 基础 上 ,为 了 和 原 有 数据 库 
的 概念 模型 相 一 致 ,数据 仓库 的 概念 数据 模型 也 采用 E-R 图 描述 。 

E-R 图 中 的 描述 方法 如 下 。 

(1) 和 矩形。 矩形 表示 实体 ,在 数据 仓库 中 表示 主题 ,在 矩形 框 内 写 上 主题 名 。 

(2) 椭圆 形 。 椭 圆 形 表示 主题 的 属性 ,并 用 无 向 边 把 主题 与 其 属性 连接 起 来 。 

(3) 萎 形 。 萎 形 表示 主题 之 间 的 联系 , 萎 形 框 内 写 上 联系 的 名 字 。 用 无 向 边 把 萎 形 分 
别 与 有 关 的 主题 连接 ,在 无 向 边 旁 标 上 联系 的 类 型 。 若 主题 之 间 的 联系 也 具有 属性 , 则 把 属 
性 和 蔡 形 也 用 无 向 边 连接 上 。 

如 表 2-3 中 , 某 商场 的 商品 .顾客 和 供应 商 之 间 概 念 模型 的 E-R 图 可 如 图 2-8 所 示 。 


顾客 号 


图 28 商品 、 顾 客 和 供应 商 ER 图 


2.3.2 逻辑 数据 模型 


目前 数据 仓库 一 般 建立 在 关系 数据 库 基 础 之 上 ,因此 ,在 数据 仓库 的 设计 中 采用 的 逻辑 
数据 模型 就 是 关系 模型 。 无 论 是 主题 还 是 主题 之 间 的 联系 都 用 关系 来 表示 。 
关系 模型 的 主要 概念 如 下 。 
(1) 关系 : 一 个 二 维 表 。 
(2) 元 组 : 表 中 的 一 行 称 为 一 个 元 组 。 
(3) 属性 : 表 中 的 一 列 称 为 属性 ,给 每 一 列 起 一 个 名 称 即 属性 名 。 
(4) 主 码 : 表 中 的 某 个 属性 组 ,其 值 唯一 地 标识 一 个 元 组 。 
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(5) 域 : 属性 的 取 值 范围 。 

(6) 分 量 : 元 组 中 的 一 个 属性 组 。 

(7) 关系 模式 : 对 关系 的 描述 ,用 关系 名 (属性 名 1, 属 性 名 2,… ,属性 名 nn) 表 示 。 

数据 仓库 的 逻辑 数据 模型 描述 了 数据 仓库 主题 的 逻辑 实现 , 即 每 个 主题 所 对 应 关系 表 
的 关系 模式 的 定义 。 


2.3.3 物理 数据 模型 


数据 仓库 的 物理 数据 模型 就 是 逻辑 数据 模型 在 数据 仓库 中 的 实现 ,如 物理 存 取 方式 , 数 
据 存储 结构 数据 存放 位 置 以 及 存储 分 配 等 。 物 理 数据 模型 是 在 逻辑 数据 模型 的 基础 之 上 
实现 的 ,在 进行 物理 数据 模型 设计 实现 时 ,所 考虑 的 主要 因素 有 : 1/O 存 取 时 间 、 空 间 利用 
率 和 维护 代价 。 在 进行 数据 仓库 的 物理 数据 模型 设计 时 ,考虑 到 数据 仓库 的 数据 量 大 但 是 
操作 单一 的 特点 ,可 采取 其 他 一 些 提高 数据 仓库 性 能 的 技术 ,如 : 合并 表 、 建 立 数据 序列 、 引 
和 元 余 .进一步 细 分 数据 .生成 导出 数据 ,建立 广义 索引 等 。 


2.3.4 高 层 数据 模型 .中 间 层 数据 模型 和 低层 数据 模型 


William H. Inmon 在 (构建 数据 仓库 》(Building the Data Warehouse) 一 书 中 提出 了 数 
据 仓 库 三 级 数据 模型 的 另 一 种 提 法 : 高 层 数 据 模型 .中 间 层 数据 模型 和 低层 数据 模型 。 

1. 高 层 数据 模型 

高 层 数 据 模型 对 数据 抽象 程度 最 大 ,使 用 的 主要 表达 工具 是 E-R 图 。 首 先 确 定 E-R 图 
所 要 集成 的 范围 ,并 由 各 方 用 户 提供 自己 的 分 E-R 图 ,最 后 将 各 个 分 E-R 图 集成 为 整体 的 
总 E-R 图 。 

2. 中 间 层 数据 模型 

高 层 数据 模型 建 好 后 ,对 高 层 数 据 模型 中 标识 的 每 个 主要 的 主题 域 或 实体 ,都 要 建 一 个 
中 间 层 数据 模型 。 但 中 间 层 数据 模型 很 难 一 次 完全 建 好 ,需要 不 断 扩展 、 完 善 。 

中 间 层 数据 模型 有 以 下 4 种 基本 构造 。 

(1) 连接 数据 组 。 连 接 数 据 组 主要 用 于 表示 本 主题 域 与 其 他 主题 域 之 间 的 联系 ,体现 
E-R 图 中 实体 之 间 的 “关系 ”。 一 般 情况 下 ,连接 数据 组 往往 是 一 个 主题 的 公共 码 键 。 

其 他 3 种 数据 组 主要 按 数据 的 稳定 性 来 划分 。 

(2) 基本 数据 组 。 基 本 数据 组 的 数据 项 是 属于 基本 不 会 发 生变 化 的 项 ,如 顾客 号 、 顾 客 
名 ,性 别 等 有 关 顾 客 的 固定 描述 信息 的 数据 项 。 每 个 主题 只 存在 一 个 基本 数据 组 ,基本 数据 
组 有 属性 和 键 码 。 主 题 的 主 码 总 是 应 包含 在 基本 数据 组 中 。 

(3) 二 次 数据 组 。 对 于 那些 基本 不 变化 ,但 又 存在 变化 可 能 的 数据 项 , 归 入 二 次 数据 
组 。 如 顾客 的 住址 、 文 化 程度 、 电 话 等 数据 项 。 二 次 数据 组 有 对 每 个 主要 主题 域 可 以 存在 多 
次 的 属性 。 

(4) 类 型 数据 组 。 对 于 那些 经 常 变化 的 数据 项 , 归 入 类 型 数据 组 。 如 顾客 的 购物 记录 
是 变动 频繁 的 数据 项 ,所 以 归 入 类 型 数据 组 。 

这 种 划分 的 好 处 是 结构 清晰 ,具有 相似 属性 的 数据 被 组 织 在 一 起 ;减少 了 宛 余 , 如 果 将 
不 变化 或 很 少 变化 的 数据 项 与 经 常 变 化 的 数据 项 混杂 在 一 起 存储 ,将 产生 大 量 元 余 。 
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3. 低层 数据 模型 
低层 数据 模型 就 是 物理 数据 模型 。 


2.4 数据 仓库 设计 步骤 


数据 仓库 系统 的 原始 需求 不 明确 ,并 且 在 设计 过 程 中 会 不 断 变化 与 增加 ,开发 者 最 初 并 
不 能 确切 了 解 到 用 户 明确 而 详细 的 需求 ,用 户 所 能 提供 的 无 非 是 需求 的 大 方向 以 及 部 分 需 
求 ,不 能 较 准 确 地 预见 到 以 后 的 需求 。 因 为 原型 法 的 思想 是 从 构建 系统 简单 的 基本 框架 着 
手 , 不 断 丰 富 与 完善 整个 系统 ,因此 ,采用 原型 法 来 进行 数据 仓库 的 开发 。 但 是 ,数据 仓库 的 
设计 开发 又 不 同 于 一 般 意义 上 的 原型 法 ,数据 仓库 的 设计 是 数据 驱动 的 。 

数据 仓库 系统 开发 是 一 个 经 过 不 断 循 环 ` 反 馈 而 使 系统 不 断 增长 与 完善 的 过 程 , 这 也 是 
原型 法 区 别 于 系统 生命 周期 法 的 主要 特点 。 数 据 仓库 的 设计 大 体 上 可 以 分 为 以 下 几 个 
步骤 ， 

(1) 概念 模型 设计 ; 

(2) 技术 准备 工作 ; 

(3) 逻辑 模型 设计 ; 

(4) 物理 模型 设计 ; 

(5) 数据 仓库 生成 ; 

(6) 数据 仓库 运行 与 维护 。 

这 几 个 设计 步骤 的 相互 关系 如 图 2-9 所 示 。 


数据 仓库 运行 与 维护 


概念 模型 设计 分 析 主题 域 .针对 每 一 个 选 定 实施 的 主题 域 
人 
好 定 系统 过 办 人 逻辑 模型 设计 物理 模型 设计 
确定 主题 域 ry 
7 确定 存储 结构 | | ”| 数 
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| 歼 据 分 旬 策 几 确定 索引 结构 | | “| 全 || 其 || 娄 
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技术 环境 准备 


图 29 数据 仓库 设计 步骤 


下 面 就 以 图 2-9 所 示 的 6 个 主要 设计 步骤 为 主线 ,介绍 在 各 个 设计 步骤 中 设计 的 基本 
内 容 。 

2.4.1 概念 模型 设计 

进行 概念 模型 设计 所 要 完成 的 工作 是 界定 系统 边界 和 确定 主要 的 主题 域 及 其 内 容 。 概 


念 模型 设计 的 成 果 是 在 原 有 的 数据 库 的 基础 上 建立 一 个 较为 稳固 的 概念 模型 。 
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因为 数据 仓库 是 对 原 有 数据 库 系统 中 的 数据 进行 集成 和 重组 而 形成 的 数据 集合 ,所 以 


数据 仓库 的 概念 模型 设计 ,首先 要 对 原 有 数据 库 系 统 加 以 分 析 理 解 : 原 有 的 数据 库 系统 中 
到 底 “ 有 什么 ”“ 怎 样 组 织 的 "和 “如 何 分 布 的 ”等 ,然后 再 来 考虑 应 当 如 何 建立 数据 仓库 系统 
的 概念 模型 。 概 念 模型 的 设计 是 在 较 高 的 抽象 层次 上 的 设计 ,因此 建立 概念 模型 时 不 用 考 
虑 具体 技术 条 件 的 限制 。 


1. 界定 系统 边界 

界定 系统 边界 前 ,首先 了 解 下 述 需 求 : 

(1) 要 进行 的 决策 类 型 有 哪些 ; 

(2) 决策 者 感 兴趣 的 问题 是 什么 ; 

(3) 这 些 问题 需要 什么 信息 ; 

(4) 要 得 到 这 些 信息 应 该 包含 原 有 数据 库 系统 的 哪 部 分 数据 。 

根据 上 述 需求 就 可 以 界定 一 个 大 致 的 系统 边界 。 因 此 ,系统 边界 划分 的 前 提 是 做 好 系 


统 需求 的 调查 。 


2. 确定 主要 的 主题 域 
根据 需求 调查 和 系统 边界 的 界定 ,确定 系统 所 包含 的 主题 域 ,然后 对 每 个 主题 域 的 内 容 


进行 较 明确 的 描述 。 描 述 的 内 容 包 括 : 


(1) 主题 域 的 公共 键 码 ; 

(2) 主题 域 之 间 的 联系 ; 

(3) 代表 主题 的 属性 组 。 

3. 实例 

以 表 2-2 所 示 的 某 商场 为 例 , 分 析 概 念 模型 设计 的 过 程 。 

该 商场 已 在 各 个 部 门 建立 了 许多 分 散 的 数据 库 , 分 别处 理 各 自 的 事物 。 如 在 人 事 、 采 


购 库存、 销售 等 几 个 部 门 分 别 存储 着 人 事 、 采 购 .库存 、 销 售 的 数据 库 。 


首先 ,界定 系统 边界 。 了 解 到 商场 的 领导 最 迫切 的 需求 是 准确 地 把 握 商场 的 经 营 状况 ， 


主要 是 商场 的 商品 采购 和 销售 情况 。 为 此 ,需要 分 析 : 


(1) 顾客 的 购买 趋势 ; 

(2) 商品 供应 市 场 的 变化 趋势 ; 

(3) 供应 商 信用 等 级 。 

根据 以 上 分 析 的 需求 ,得 出 所 需 数据 包括 : 

(1) 商品 销售 数据 ; 

(2) 商品 采购 数据 ; 

(3) 顾客 信息 ; 

(4) 供应 商 信息 。 

据 此 ,可 以 界定 该 系统 的 边界 应 该 为 原 有 的 销售 子 系统 .采购 子 系统 和 库存 子 系统 。 

在 界定 了 系统 边界 的 基础 上 ,根据 分 析 需 求 , 确 定 该 数据 仓库 系统 包括 3 个 主题 域 : 商 


品 ,供应 商 和 顾客 。 其 中 ,顾客 可 购买 多 种 商品 (可 能 是 不 同 供应 商 所 供应 ) ,一 个 供应 商 所 
供应 的 商品 可 被 多 个 顾客 购买 ;供应 商 提供 多 种 商品 ,同一 种 商品 也 可 由 多 个 供应 商 供应 。 
可 以 看 出 ,这 3 个 主题 之 间 是 由 商品 这 一 主题 来 相互 联系 ,而 顾客 与 供应 商 不 发 生 直接 的 联 
系 。 也 就 是 说 ,商品 主题 与 供应 商 主题 间 的 联系 是 商品 供应 关系 ,商品 主题 与 顾客 主题 间 的 
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联系 是 商品 销售 关系 。 
通过 以 上 的 界定 系统 边界 和 确定 主要 主题 域 后 ,初步 画 出 该 数据 仓库 系统 的 E-R 图 
如 图 2-8。 


2.4.2 技术 准备 工作 


技术 准备 工作 阶段 的 主要 任务 是 进行 技术 评估 和 进行 技术 环境 的 准备 。 

进行 技术 评估 ,就 是 确定 数据 仓库 的 各 项 性 能 指标 。 一 般 情况 下 ,需要 确定 的 性 能 指标 
如 下 : 

(1) 管理 大 数据 量 数据 的 能 力 ; 

(2) 进行 灵活 数据 存 取 的 能 力 ; 

(3) 根据 数据 模型 重组 数据 的 能 力 ， 

(4) 透明 的 数据 发 送 和 接收 能 力 ; 

(5) 周期 性 成 批 装载 数据 的 能 力 ; 

(6) 可 设 定 完成 时 间 的 作业 管理 能 力 。 

技术 环境 的 储备 主要 是 对 系统 软 、 硬 件 系 统 的 准备 。 首 先 ,根据 以 下 数据 确定 软 、 硬 件 
系统 的 配置 : 

(1) 预期 在 数据 仓库 上 分 析 处 理 的 数据 量 ; 

(2) 减少 或 减轻 竞争 性 存 取 程 序 冲 突 的 措施 ; 

(3) 估算 数据 仓库 的 数据 量 ; 

(4) 估算 进出 数据 仓库 的 数据 通信 量 。 

上 述 数据 估算 后 ,就 可 以 进行 软 、 硬 件 系统 的 配置 。 主 要 配置 以 下 设备 ， 

(1) 直接 存 取 设备 及 管理 软件 ; 

(2) 网 络 ; 

(3) 操作 系统 ; 

(4) 对 数据 仓库 进行 查询 、 分 析 处 理 等 操作 的 软件 及 界面 ; 

(5) 管理 数据 仓库 的 软件 。 

所 需 配 置 的 各 种 软件 有 些 可 以 直接 购买 ,有 些 需要 请 专业 开发 人 员 结 合 企业 实际 情况 
自主 开发 。 


2.4.3 逻辑 模型 设计 


逻辑 模型 设计 的 主要 工作 包括 分 析 主 题 域 , 确 定 当 前 要 装载 的 主题 ;确定 粒度 层次 划 
分 ;确定 数据 分 割 策略 :关系 模式 定义 ;记录 系统 定义 。 

1. 分 析 主 题 域 

数据 仓库 的 设计 方法 是 一 个 逐步 求 精 的 过 程 ,在 进行 设计 时 ,一 般 是 一 次 一 个 主题 或 
次 若干 个 主题 逐步 完成 ,所 以 必须 对 概念 模型 设计 步骤 中 确定 的 几 个 基本 主题 域 进行 分 析 ， 
选择 首先 实施 的 主题 域 。 选 择 第 一 个 主题 域 所 要 考虑 的 是 , 它 要 足够 大 ,以 便 使 得 该 主题 域 
能 建设 成 为 一 个 可 应 用 的 系统 ; 它 还 要 足够 小 ,以 便于 开发 和 较 快 地 实施 。 如 果 所 选择 的 主 
题 域 很 大 并 且 很 复杂 ,也 可 以 先 对 一 个 有 意义 的 子 集 进行 开发 。 在 每 一 次 反馈 过 程 中 ,都 要 
进行 主题 域 的 分 析 。 
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例如 ,在 前 面 所 举 的 商场 数据 仓库 设计 的 实例 中 ,已 经 在 设计 概念 模型 中 确定 了 3 个 主 
要 主题 域 : 商品 ,供应 商 和 顾客 。 通 过 前 面 的 分 析 , 已 经 明确 商品 这 一 主题 域 与 供应 商 和 顾 
客 主题 域 都 有 关系 ;通过 对 商品 这 一 主题 域 ,商场 经 营 者 就 能 对 整个 商场 的 经 营 状 况 有 全 面 
了 解 。 因 此 ,可 以 首先 选 定 商品 主题 域 来 进行 开发 。 

2. 划分 粒度 层次 

数据 仓库 的 粒度 层次 划分 是 数据 仓库 逻辑 设计 中 要 解决 的 一 个 重要 问题 。 粒 度 层 次 划 
分 是 否 适当 直接 影响 到 数据 仓库 中 的 数据 量 和 所 适合 的 查询 类 型 。 确 定数 据 仓 库 的 粒度 层 
次 的 划分 ,可 以 使 用 第 2. 5. 3 小 节 中 介绍 的 方法 ,通过 估算 数据 行 数 和 所 需 的 存储 空间 数 以 
及 根据 具体 的 分 析 需 求 来 确定 是 采用 单一 粒度 还 是 多 重 粒度 ,以 及 粒度 划分 的 层次 。 如 商 
场 数据 仓库 的 粒度 层次 可 以 划分 为 : 早期 细节 级 、 当 前 细节 级 、 轻 度 综合 级 和 高 度 综合 
级 等 。 

3. 确定 数据 分 割 策略 

确定 数据 分 割 策略 主要 是 选择 适当 的 数据 分 割 的 标准 。 选 择 数据 分 割 的 标准 一 般 要 考 
虑 数据 量 (不 是 记录 行 数 ) .数据 分 析 处 理 的 实际 情况 以 及 粒度 划分 策略 等 。 数 据 量 的 大 小 
决定 是 否 进 行 数据 分 割 和 如 何 分 割 ,数据 分 析 处 理 的 要 求 是 选择 数据 分 割 标 准 的 一 个 主要 
依据 ,还 要 考虑 到 所 选择 的 数据 分 割 标准 是 自然 的 ,易于 实施 的 ;同时 也 要 考虑 数据 分 割 的 
标准 与 粒度 划分 层次 要 相 适 应 。 

4. 定义 关系 模式 

因为 数据 仓库 的 每 个 主题 都 是 由 多 个 表 来 实现 的 ,这 些 表 之 间 依 靠 主 题 的 公共 键 码 联 
系 在 一 起 。 关 系 模 式 定义 就 是 对 在 概念 模式 设计 时 确定 的 当前 实施 的 主题 域 进 行 模式 划 
分 ,以 便 形 成 多 个 表 , 并 确定 各 个 表 的 关系 模式 。 如 前 面 所 列举 商场 的 数据 仓库 设计 例子 
中 ,已 经 确定 商品 这 个 主题 是 当前 实施 的 主题 域 ,对 这 个 主题 域 进行 关系 模式 定义 如 下 。 

(1) 公共 键 码 : 商品 号 。 

(2) 商品 固有 信息 : 商品 表 。 

(3) 商品 采购 信息 : 采购 表 1( 细 节 级 ) ,采购 表 2 一 "( 按 不 同时 间 段 的 综合 表 ) 。 

(4) 商品 销售 信息 : 销售 表 1( 细 节 级 ) ,销售 表 2 一 *( 按 不 同时 间 段 的 综合 表 ) 。 

(5) 商品 库存 信息 : 库存 表 1( 细 节 级 ) ,库存 表 2 一 "( 按 不 同时 间 段 的 综合 表 ) 。 

(6) 其 他 导出 数据 : 其 他 数据 表 。 

5. 定义 记录 系统 

数据 仓库 中 的 数据 来 源 于 多 个 已 经 存在 的 操作 型 系统 及 外 部 系统 。 在 将 这 些 数 据 装载 
到 数据 仓库 中 时 ,必须 选择 最 完整 .最 及 时 、 最 准确 和 最 接近 的 数据 作为 记录 系统 ,同时 这 些 
数据 所 在 表 的 关系 模式 还 应 最 接近 构成 主题 的 多 个 表 的 关系 模式 。 另 外 ,一 定 将 记录 系统 
的 定义 记 入 数据 仓库 的 元 数据 中 。 

前 面 所 举 商场 的 实例 中 , “商品 ”主题 的 有 关内 容 分 散在 原 有 的 采购 子 系统 、 库 存 子 系 
统 、 销 售 子 系统 的 操作 型 部 门 数 据 库 中 。 这 三 个 数据 源 中 有 关 商 品 的 信息 有 相交 的 部 分 ,可 
能 存在 不 一 致 的 信息 ,需要 从 记录 系统 的 要 求 出 发 ,选择 原 有 的 分 散 数据 库 中 最 完整 、 及 时 、 
准确 和 接近 外 部 实体 的 数据 定义 为 数据 仓库 的 记录 系统 。 在 数据 仓库 的 元 数据 中 ,应 该 记 
录 主 题名 、 属 性 名 .数据 源 系统 、 源 表 名 和 源 属性 名 等 项 。 
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2.4.4 物理 模型 设计 


物理 模型 设计 主要 包括 确定 数据 的 存储 结构 、 确 定 索引 策略 、 确 定数 据 存放 位 置 、 确 定 
存储 分 配 。 

确定 数据 仓库 实现 的 物理 模型 ,要求 设计 人 员 必 须 深 入 了 解 以 下 内 容 : 所 选用 的 数据 
库 管 理 系统 ,特别 是 存储 结构 和 存 取 方 法 ;了 解数 据 环境 ,数据 的 使 用 频 度 、 使 用 方式 .数据 
规模 以 及 响应 时 间 要 求 ; 了 解 外 部 存储 设备 的 分 块 原则 , 块 大 小 的 规定 等 特性 以 及 设备 的 
I/O 特性 等 。 

1. 确定 数据 的 存储 结构 

不 同 的 存储 结构 有 不 同 的 实现 方式 ,不 同 的 适用 范围 和 优 缺 点 。 设 计 人 员 在 选择 存储 
结构 时 应 考虑 存 取 时 间 、 存 储 空间 利用 率 和 维护 代价 这 3 个 方面 的 主要 因素 。 

2. 确定 索引 策略 

数据 仓库 中 的 数据 量 虽然 很 大 ,但 其 中 的 数据 是 不 常 更 新 的 。 因 此 ,可 以 设计 多 种 索引 
结构 提高 数据 存 取 的 效率 ,如 广义 索引 。 确 定 索引 策略 时 ,需要 对 数据 的 存 取 路 径 进 行 仔细 
地 设计 和 选择 。 

3. 确定 数据 存放 位 置 

在 数据 仓库 系统 中 ,同一 个 主题 域 的 数据 并 不 要 求 存 放 在 相同 的 介质 上 。 在 物理 设计 
时 ,要 按 数据 的 重要 程度 ,使 用 频率 以 及 对 响应 时 间 的 要 求 进行 分 类 ,并 将 不 同类 的 数据 分 
配 存储 在 不 同 的 存储 设备 中 。 重 要 程度 高 .经常 存 取 并 对 响应 时 间 要 求 高 的 数据 就 存放 在 
高 速 存储 设备 上 ,如 硬盘 ; 存 取 频 率 小 或 对 存 取 响应 时 间 要 求 低 的 数据 可 以 放 在 低速 存储 设 
备 上 ,如 磁盘 或 磁带 。 

确定 数据 存放 的 位 置 时 还 应 考虑 以 下 因素 : 

(1) 是 否 进行 合并 表 ; 

(2) 是 否 对 一 些 经 常 性 的 应 用 建立 数据 序列 ; 

(3) 对 常用 的 ,不 常 修改 的 表 或 属性 是 否 元 余 存 储 。 

对 于 上 述 情 况 , 应 该 记 入 数据 仓库 的 元 数据 中 。 

4. 确定 存储 分 配 

存储 分 配 主 要 包括 块 的 大 小 、 缓 冲 区 大 小 和 个 数 等 ,这 些 都 应 该 在 物理 模型 设计 时 确 
定 ; 要 根据 数据 库 管 理 系统 提供 的 参数 和 数据 仓库 所 需要 存放 的 数据 量 来 决定 。 


2.4.5 数据 仓库 的 生成 


生成 数据 仓库 主要 是 进行 接口 设计 和 将 数据 装 入 。 数 据 装 人 后 ,还 要 在 其 上 建立 数据 
仓库 的 应 用 。 

1. 接口 设计 

将 操作 型 环境 下 的 数据 装载 进入 数据 仓库 环境 ,需要 在 两 个 不 同 环境 的 记录 系统 之 间 
建立 一 个 接口 。 接 口 应 具有 以 下 功能 : 

(1) 从 面向 应 用 和 操作 的 环境 生成 完整 的 数据 ; 

(2) 数据 的 转换 ; 

(3) 数据 的 计算 与 综合 ; 
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(4) 对 现 有 记录 系统 的 有 效 扫描 ,以 便 以 后 进行 追加 。 

还 要 考虑 到 物理 设计 的 一 些 因素 和 技术 条 件 限 制 ,根据 这 些 内 容 , 制 定 规格 说 明 , 然 后 
根据 规格 说 明 ,进行 接口 编程 。 编 程 过程 包 括 : 伪 码 开发 ,编码 ,编译 , 检 错 和 测试 等 步 又。 

在 接口 编程 时 ,应 注意 以 下 几 方 面 : 

(1) 保持 高 效 性 ,这 也 是 一 般 的 编程 所 要 求 的 ; 

(2) 要 保存 完整 的 文档 记录 ; 

(3) 要 灵活 ,易于 改动 ; 

(4) 要 能 完整 ,准确 地 完成 从 操作 型 环境 到 数据 仓库 的 数据 抽取 转换 与 集成 。 

2. 数据 装 入 

数据 装 入 就 是 通过 运行 接口 程序 ,将 数据 装 入 到 数据 仓库 中 去 。 在 进行 数据 装 入 时 ,要 
完成 以 下 工作 : 

(1) 确定 数据 装 入 的 次 序 ; 

(2) 清除 无 效 或 错误 数据 ; 

(3) 数据 粒度 管理 ; 

(4) 数据 刷新 等 。 

需要 注意 的 是 ,在 进行 数据 装 入 时 ,并 不 是 一 次 就 将 准备 装 入 的 数据 全 部 都 装 入 数据 仓 
库 , 而 是 按照 逻辑 模型 设计 中 所 确定 和 分 析 的 主题 域 , 先 装 入 并 生成 某 一 主题 域 。 这 样 可 以 
尽快 地 进入 下 一 步 工 作 , 在 数据 仓库 的 使 用 和 维护 中 ,尽早 发 现 问 题 \ 提 出 新 的 需求 ,使 设计 
不 断 完善 .扩展 。 


2.4.6 数据 仓库 的 使 用 和 维护 


数据 仓库 的 使 用 和 维护 主要 是 开发 决策 支持 系统 DSS 的 应 用 ;进一步 理解 需求 ,调整 
和 完善 数据 仓库 系统 ,维护 数据 仓库 。 

1. 开发 DSS 应 用 

在 数据 仓库 环境 中 开发 DSS 应 用 与 在 操作 型 环境 中 开发 DSS 应 用 有 着 本 质 的 区 别 。 
在 数据 仓库 环境 中 的 开发 有 以 下 几 方 面 的 特点 : 

(1) 数据 仓库 环境 中 开发 DSS 应 用 是 从 数据 出 发 ; 

(2) 数据 仓库 环境 中 DSS 应 用 的 需求 不 能 在 开发 初期 完全 了 解 ; 

(3) 数据 仓库 环境 中 DSS 应 用 的 开发 是 一 个 不 断 循 环 的 过 程 , 是 启发 式 的 开发 。 

DSS 应 用 分 为 例 行 分 析 处 理 和 启发 式 分 析 处 理 两 种 类 型 。 

(1) 例 行 分 析 处 理 。 重 复 进行 的 分 析 处 理 , 通 常 是 属于 部 门 级 的 应 用 ,如 部 门 统计 分 
析 报表 分 析 等 。 

(2) 启发 式 分 析 处 理 。 企 业经 营 者 受到 某 种 信息 启发 而 进行 的 一 些 分 析 处 理 , 随 机 人 性 
较 大 。 

DSS 应 用 开发 的 大 致 步骤 如 图 2-10 所 示 。 

各 步骤 简单 说 明 如 下 。 

第 1 步 ,确定 所 需 的 数据 ,从 数据 仓库 中 确定 一 个 可 能 用 到 的 数据 范围 。 这 是 一 个 试探 
的 过 程 。 

第 2 步 ,编程 抽取 数据 ,根据 第 1 步 得 到 的 数据 范围 ,编写 抽取 程序 获得 这 些 数据 。 为 
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回答 问题 上 一 | 例 行 化 


数据 


合并 数据 


图 210 DSS 应 用 开发 步骤 


适应 分 析 需 求 多 变 的 特点 ,要 求 所 编写 的 抽取 程序 应 通用 、 易 于 修改 。 

第 3 步 ,合并 数据 , 当 有 多 个 数据 抽取 源 时 .将 抽取 来 的 数据 进行 合并 ,提炼 ,使 数据 符 
合 分 析 人 处理 的 要 求 。 

第 4 步 ,分 析 数 据 , 对 数据 进行 分 析 处 理 ,并 检查 是 否 满足 分 析 要 求 。 如 果 不 满足 分 析 
要 求 ,返回 到 第 1 步 ,开始 新 一 轮 循环 ; 若 已 经 满足 分 析 要 求 ,继续 进行 下 一 步 。 

第 5 步 , 回 答 问 题 ,在 这 一 步 要 完成 最 终 分 析 结 果 报告 ,一 般 情况 需要 进行 多 次 循环 
得 到 。 

第 6 步 , 例 行 化 ,最 好 对 分 析 处 理 例 行 化 ,这 样 在 以 后 进行 同样 的 分 析 处 理 时 ,可 以 简 
化 。 例 行 化 的 另 一 个 好 处 是 不 断 积 累 例 行 处 理 , 形 成 一 个 大 的 集合 ,可 以 进一步 生成 一 个 更 
大 的 系统 。 

2. 进一步 理解 需求 ,改善 系统 ,维护 数据 仓库 

数据 仓库 的 开发 使 用 逐步 完善 的 原型 法 ,原型 法 要 求 要 尽快 地 让 系统 运行 起 来 ,尽早 产生 
效益 ;要 在 系统 运行 或 使 用 中 ,不 断 地 理解 需求 ,改善 系统 ;不 断 地 考虑 新 的 需求 ,完善 系统 。 

如 前 面 所 举 商 场 建立 数据 仓库 的 过 程 , 先 以 商品 主题 域 为 首先 实施 的 主题 域 。 在 将 商 
品 主题 的 数据 装 和 人 数据 仓库 后 ,就 开发 商品 这 一 主题 域 的 DSS 应 用 ,进行 对 商品 主题 的 分 
析 处 理 。 在 分 析 应 用 中 ,对 原来 的 设计 作出 评价 和 调整 。 然 后 ,就 可 以 开发 顾客 .供应 商 等 
主题 域 的 DSS 应 用 。 

维护 数据 仓库 主要 是 管理 日 常数 据 的 装 和 ,包括 刷新 数据 仓库 的 当前 详细 数据 ,将 过 时 
数据 转化 成 历史 数据 ,清除 不 再 使 用 的 数据 ,管理 数据 仓库 的 元 数据 等 。 

对 于 不 同 规模 .不 同 应 用 的 需求 ,以 及 不 同 的 设计 人 员 的 开发 习惯 等 ,数据 仓库 的 设计 
步骤 并 不 是 一 成 不 变 的 ,但 最 终 应 该 满足 用 户 的 分 析 需 求 。 

在 William H. Inmon 所 著 的 (构建 数据 仓库 》(Building the Data Warehouse) 一 书 中 介 
绍 的 数据 仓库 设计 的 步骤 如 图 2-11 所 示 。 


对 每 一 个 主题 
数据 模型 一 
| 一 | | 主题 域 分 | | 源 系统 分 | | 程序 说 明 数据 装 入 
分 仙人 本 (5) 析 (7) (8) 全 人) (10) 
- | | 
一 | 知 庆 分 析 一 一 | 数据 仓库 设计 (6) 运行 与 维护 (11) 
技术 评估 [一 一 | 技术 环境 准备 (4) 


图 211 William Hinmon 数据 仓库 设计 步骤 
。40 。 


2.5 利用 SQL Server 2005 构建 数据 仓库 


2005 年 底 ,微软 公司 正式 推出 SQL Server 2000 的 后 继 产品 SQL Server 2005。 与 前 一 
代 相 比 ,SQL Server 2005 不 仅 提供 了 更 加 优秀 的 数据 库 管理 功能 ,而 且 提供 了 一 套 完 整 的 
数据 仓库 和 数据 挖掘 技术 的 解决 方案 。 其 中 ,SQL Server 2005 负责 底层 的 数据 库 和 数据 
仓库 管理 ,SQL Server 2005 集成 服务 (SSIS) 负 责 数据 的 抽取 、 转 换 和 装载 (ETL),SQL 
Server 2005 分 析 服 务 负责 OLAP 分 析 和 数据 挖掘 ,SQL Server 2005 报表 服务 (SSRS) 负 责 
前 端 展示 。 

本 节 以 订单 分 析 为 范例 讲述 利用 Microsoft SQL Server 2005 的 分 析 服 务 来 创建 数据 
仓库 ,数据 源 使 用 现 有 的 进 销 存 数据 库 , 其 中 主要 使 用 到 订单 主 表 和 订单 从 表 , 订 单 主 表 
涉及 的 字段 有 订单 编号 、 员 工 编 号 、 采 购 商 编号 ,订购 日 期 \ 订 单 状 态 , 订 单 从 表 涉 及 的 字 
段 有 产品 编号 、 产 品名 称 、 单 价 、 数 量 、 订 单 编号 。 订 单 编号 作为 订单 主 表 的 主键 和 从 表 
的 外 键 。 

实现 步骤 如 下 。 

(1) 打开 Visual Studio 2005 系统 , 使 用 菜单 新 建 项 目 ,如 图 2-12 所 示 。 


文件 下) 上 编辑 下 ) 视图 WW) 工具 Y) 窗口 和 ) 社区 (CC) 帮助 0D 


间 建 中 上 加 项 目 到 ). . ， Ctrl+Shi t+ 了 

打开 @) ?| 文 件 四 Ctrlty 

关闭 人 ) 
吕 djio 200 
国 全 部 保存 LD) Ctrltshiftts 开发 
卫 当前 的 新 闻 须 省 可 党 

连接 可 涯 不 可 用 。 志 : 

E 

最 近 的 文件 EE) » 

最 近 的 项 目 GD) » 

退出 &&) 


图 212 使 用 Visual Studio 2005 系 统 新 建 项 目 


(2) 选择 新 建 Analysis Services 项 目 , 将 名 称 修改 成 “订单 分 析 ”, 并 且 选 择 项 目 保存 的 
位 置 ,创建 同名 的 解决 方案 ,如 图 2-13 所 示 。 

(3) 打开 解决 方案 资源 管理 器 ,查看 已 经 创建 的 解决 方案 ,使 用 鼠标 在 “数据 源 ” 处 右 
击 , 选 择 * 新 建 数据 源 ”, 并 且 在 数据 源 向 导 界 面 单 击 * 下 一 步 按 钮 ,如 图 2-14 和 图 2-15 
所 示 。 

(4) 选择 如 何 连 接 数 据 源 ,选择 “基于 现 有 连接 或 新 连接 创建 数据 源 ”, 单 击 “ 新 建 ” 按 
钮 ,如 图 2-16 所 示 。 

(5) 在 打开 的 连接 管理 器 窗口 选择 数据 库 , 提 供 程 序 选 择 “ 本 机 OLE DB\SQL Native 
Client”, 服 务 器 名 为 已 经 连接 的 服务 器 名 ,选择 登录 到 服务 器 的 身份 验证 方式 (与 数据 库 服 
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项 目 类 型 到 ) 


模板 C): 


再 业 智能 项 目 
由 -其 他 项 目 关 型 


Tisaal Stadie 已 安装 的 模板 
mysis Serviees 项 目 加 fateeration services 项 目 
迎 导 入 Analysis 5ervices 9.0 . 。 周报 表 服 务 器 项 目 向 导 
旺 报 志 服 务 器 项 上 国 把 过 重型 项 上 

委 的 模板 BS 
前 搜索 联 机 模板 


创 娃 新 的 Analysis Servicss 项 目 


名 称 四 : 订单 分 析 | 


位 置 四: [:\ 书 策 \ 疡 建文 件 无 \ 利 用 SQL Server 2005 外 建 数 据 他 库 图 


解决 方案 名 称 他 ) ; [订单 分 析 加 他 时 解 岂 方案 的 目录 中) 


图 213 新 建 Analysis Sevices 项 目 图 214 新 建 数据 源 


数据 源 向 导 
欢迎 使 用 数据 源 向 导 


使 用 此 向 导 包 建新 数据 源 . 
数据 源 表 示 到 数据 的 连接 . 


i 


包 合 相应 ] 


固 不 再 显示 此 页 人 @) 


图 215 新 建 数据 源 向 导 


四 数据 源 向 导 


选择 如 何 定义 连接 
您 育 众多 方式 可 局 选择 ， 以 便 数 据 源 对 其 连接 字符 串 进行 定义 - 


基于 现 有 连接 或 新 连接 他 娃 数 据 源 () 
数据 连接 


〇 基于 另 一 个 对 象 自 建 数据 源 由) 


企 必须 碗 择 一 个 有 效 连 接 。 


图 216 选择 如 何 连接 数据 源 


务 器 的 设置 相关 ) ,并 选择 数据 库 名 ,然后 单 击 “ 确 定 ” 按 钮 ,如 图 2-17 和 图 2-18 所 示 。 


提 典 程序 @) |[ 计 机 OLE DB\SQL Native Client 


服务 器 名 到 ) 


[chnsT-49FOFA235 


加 使 用 Windows 身份 驻 证 @@) 
加 便 用 SQL Server 身份 验证 @) 


门 保育 齐 码 E) 


图 218 连接 管理 器 连接 测试 成 功 窗口 


(6) 单 击 图 2-18 窗口 的 “确定 ”按钮 后 回 到 “选择 如 何 定义 连接 ”窗口 ,选中 已 连接 的 数 
据 库 并 单 击 * 下 一 步 ? 按 钮 ,如 图 2-19 所 示 。 


选择 如 何 定义 


您 有 众多 方式 可 以 选择 ， 以 便 炒 据 源 对 其 连接 字符 串 进行 定义 


涩 舌 连 接 飞 性 
属性 


Dota Source 


Inteerated 
Prewi 


〇 基于 另 一 个 对 象 自 百 数 据 源 由) 


《上 一 步 @) 下 一 步 吕 > 充 成 加 六 | 取消 


图 219 选择 已 经 连接 的 数据 库 作 为 数据 源 


。43 。 


(7) 选择 分 析 服 务 器 使 用 “使 用 服务 账户 ”作为 连接 数据 源 的 凭证 ,并 单 击 “ 下 一 步 ” 按 
钮 ,如 图 2-20 所 示 。 


模拟 信息 
可 以 定义 nslysis Services 使 用 何 种 拭 括 来 连 接 玉 据 源 - 


〇 全 用 特定 用 户 名 和 密码 忆 ) 


用 P 名 由 

客 吧 人 
ER 了 PS 
〇 全 用 当前 用 户 的 质 据 中) 
〇 默认 值 四 


图 220 选择 连接 数据 源 的 凭证 


(8) 完成 新 建 数据 源 向 导 并 确定 数据 源 的 名 称 , 如 图 2-21 所 示 。 


成 向 导 
请 提供 一 个 和 名称， 然后 单 击 “ 完 成 ”以 创 建新 数据 天 . 


数据 源 名 称 0) 
EE] 
现 攻 全 
这 按 字 宁 囊 
ES 1;Data Source=GHOST-49F0FA235; Integrated Security=SSPI:Initial Catalog- 进 铺 


图 221 新 建 数据 源 向 导 完 成 


(9) 使 用 解决 方案 管理 器 新 建 数 据 源 视图 ,打开 向 导 并 单 击 “ 下 一 步 ”按钮 ,如 图 2-22 
和 图 2-23 所 示 。 

(10) 选择 已 经 创建 的 数据 源 作为 视图 的 数据 源 ,如 图 2-24 所 示 。 

(11) 选择 数据 源 中 的 表 和 视图 ,如 图 2-25 所 示 。 

(12) 完成 数据 源 视图 向 导 并 为 该 视图 命名 ,如 图 2-26 所 示 。 

(13) 新 建 多 维 数据 集 , 打 开 多 维 数据 集 向 导 并 单 击 “ 下 一 步 ” 按 钮 ,如 图 2-27 和 图 2-28 
所 示 。 

(14) 选择 多 维 数据 集 的 生成 方法 ,本 范例 选择 “使 用 数据 源 生成 多 维 数据 集 ”, 并 选中 
“自动 生成 "和 “创建 属性 和 层次 结构 ”, 如 图 2-29 所 示 。 

。44。 


本 数据 源 视 图 向 导 


欢迎 使 用 数据 源 视图 向 导 


使用 此 向 导 创 尘 新 的 数 大 潭 广 图 . 
从 关系 数 贤 库 的 表 和 视图 中 他 津 数据 源 视 图 。 


es 


回 不 再 显示 此 页 GE) 


cer 


图 22 右 击 新 建 数据 源 视 图 


双 数据 源 视图 向 导 


选择 数据 源 
选择 现 有 的 关系 数据 还 ， 或 新 建 一 个 关系 获 据 源 


Integrated -。 SSPI 
Provider SOUICLL 1 


图 224 选择 视图 的 数据 源 


站 数据 源 视图 向 导 


选择 表 和 视图 
从 要 包含 在 数据 源 视 图 中 的 关系 汐 据 库 中 选择 对 象 - 


可 用 对 象 A) 
名 称 


夭 加 相关 表 攻 


取消 a 


图 225 选择 表 和 视图 


轩 数据 源 视 图 向 导 


请 提供 一 个 名 称 ， 杖 后 单 击 “ 完 成 ”以 外 建新 数据 还 视图 . 


名 称 办 

3 

预览 中) 
EEE 3 


国 dbo. 订 单 从 表 
加 dbo. 订 单 主 表 


CE jC 


图 226 完成 新 建 数据 源 视 图 向 导 


寺 多 维 数据 集 向 导 


欢迎 使 用 多 维 数据 集 向 导 


ee 
Te 


回 不 再 显示 此 页 G) 


攻 EPE 天 | ETE3 | 医 
图 228 多 维 数据 集 向 导 


在 多 维 数据 集 向 导 


选择 生成 方法 
选择 生成 多 推 数据 集 的 方法 。 


[本 用 数 轴 源 生成 多 到 数 克 棵 | 
回 自动 生成 四 ) 
| 他 隘 属性 和 层次 车 构 


图 229 选择 生成 多 维 数据 集 的 方法 


。46 。 


(15) 选择 多 维 数据 集 的 数据 源 视图 并 单 击 “ 下 一 步 ” 按 钮 ,如 图 2-30 所 示 。 


南 多 维 数据 集 向 导 


选择 数据 源 视图 
选择 格 为 多 维 数 据 集 提供 数据 的 数据 源 视图 。 


可 用 数据 源 视 图 ()- 
E] 


图 230 选择 多 维 数据 集 的 数据 源 视图 
(16) 单 击 * 下 一 步 " 按 钮 ,检测 事实 数据 表 和 维度 表 , 如 图 2-31 所 示 。 


并 多 维 数据 集 向 导 


检测 事实 数据 表 和 维度 表 
多 维 数 据 集 向 导 正在 扫描 关系 架构 ， 以 识别 事实 数据 表 和 维度 . 


加 


| npn 以 识别 事实 数 需 表 和 维度 。 可 以 在 以 下 页 中 查看 全 | 


sv sv Rv 


图 231 检测 事实 数据 表 和 维度 表 


(17) 单 击 “ 下 一 步 ” 按 钮 ,标识 数据 源 视 图 中 的 事实 表 和 维度 表 , 如 图 2-32 所 示 。 
(18) 选择 多 维 数据 集 的 度量 值 ,如 图 2-33 所 示 。 
(19) 单 击 “ 下 一 步 ” 按 钮 ,扫描 维度 ,检测 层次 结构 ,如 图 2-34 所 示 。 


。 48 。 


前 多 维 数据 集 向 导 


标识 事实 数据 表 和 维度 表 
标识 数 硕 源 视图 中 的 事实 数据 表 和 维度 表 。 也 可 以 指定 时 间 维 度 表 . 


后 


但 de 可 单 从 表 
全 as 可 单 三 表 


图 232 标示 事实 表 和 维度 表 


在 多 维 数据 集 向 导 


选择 度量 值 
选择 要 包 合 在 多 扒 汰 据 集 中 的 度量 值 。 


可 用 度量 值 (8) 
度量 值 欠 /度量 值 
回 网 河 间 从 表 

二 单价 

回 数量 

回 吊 订单 从 表 计数 
回 网 回音 主 表 

二 订单 主 表 计数 


图 233 选择 度量 值 


站 多 维 数据 集 向 导 


检测 层次 结构 
多 维 数据 集 向 导 正 在 扫 指 维度 ， 以 检测 层次 结构 。 床 


《9 


[ 停止 加 | 


图 234 扫描 维度 


(20) 单 击 “下 一 步 ?按钮 ,查看 维度 结构 ,并 可 以 做 适当 修改 ,如 图 2-35 所 示 。 


南 多 维 数据 集 向 导 


查看 新 建 维度 
坦 看 新 建 维度 的 结构 并 根据 需要 进行 更 吧 。 


新建 扒 度 中) - 
日 后 区 订单 主 表 


图 235 查看 维度 结构 


(21) 单 击 “ 下 一 步 ?按钮 ,完成 多 维 数据 集 向 导 , 如 图 2-36 所 示 。 


志 多 维 数据 集 向 导 


完成 向 导 
命名 多 维 数 据 集 并 查看 其 结构 ， 烘 后 单 击 “ 完 成 ”保存 多 推 数据 集 。 


多 推 数据 集 名 称 尼 ) 


| 进 销 存 
预览 到 ) 


图 236 完成 多 维 数据 集 向 导 


(22) 创建 完 数据 仓库 ,如 图 2-37 所 示 , 最 后 可 以 生成 该 数据 仓库 并 部 署 ,如 图 2-37 
所 示 。 


。 49 。 
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图 237 创建 完成 数据 仓库 界面 


小 结 


本 章 首先 对 数据 仓库 的 概念 作 了 较 深 入 的 讲解 。 对 数据 仓库 的 数据 是 面向 主题 的 .是 
集成 的 .是 不 可 更 新 的 以 及 是 随时 间 不 断 变化 的 定义 ,逐条 进行 了 讲述 。 然 后 对 数据 仓库 的 
结构 中 的 元 数据 、 粒 度 问题 及 分 割 问题 进 行 了 讲解 ,并 描述 了 数据 仓库 中 的 数据 组 织 形式 。 
接 下 来 对 数据 仓库 系统 的 设计 从 设计 方法 数据 模型 以 及 提高 数据 仓库 的 性 能 方面 进行 了 
较 详 细 的 介绍 ,并 给 出 了 数据 仓库 设计 步骤 。 本 章 的 最 后 讲述 了 利用 SQL Server 2005 构 
建 数据 仓库 。 读 者 通过 本 章 的 学 习 应 该 对 数据 仓库 的 定义 有 较 深 入 的 理解 ,重点 掌握 数据 
仓库 的 粒度 概念 ,掌握 如 何 提高 数据 仓库 的 性 能 以 及 数据 仓库 设计 方法 与 设计 步骤 ,学 会 使 
用 SQL Server 2005 构建 数据 仓库 。 


习题 2 


1. 如 何 理解 数据 仓库 是 面向 主题 的 、 集 成 的 .不 可 更 改 的 和 是 随时 间 不 断 变 化 的 。 

2. 什么 叫 元 数据 ? 起 什么 作用 ? 

3. 如 何 理解 数据 仓库 中 的 粒度 的 概念 ? 如 何 确定 数据 仓库 的 粒度 ? 数据 量 与 粒度 有 
什么 关系 ? 

4. 为 什么 要 进行 数据 仓库 的 清理 ?如 何 清理 ? 
. 数据 仓库 设计 有 哪 3 级 数据 模型 ? 各 如 何 设计 ? 
. 采用 什么 方法 可 以 提高 数据 仓库 的 性 能 ? 
. 叙述 数据 仓库 设计 的 具体 步骤 .如 何 实现 ? 
. 什么 是 数据 仓库 的 直接 访问 ,什么 是 数据 仓库 的 间接 访问 ? 两 者 有 何不 同 ? 
数据 仓库 有 哪些 应 用 领域 ? 各 举例 说 明 。 


om 


第 3 童 联机 分 析 处 理 技术 


随 着 计算 机 技术 的 广泛 应 用 ,企业 每 天 都 要 产生 大 量 的 数据 ,如 何 从 这 些 数据 中 提取 对 
企业 决策 分 析 有 用 的 信息 ,是 企业 决策 管理 人 员 所 面临 的 一 个 难题 。 传 统 的 数据 库 系统 即 
联机 事务 处 理 系统 (online transaction processing,OLTP) ,作为 数据 管理 手段 ,主要 用 于 事 
务 处 理 , 但 它 对 分 析 处 理 的 支持 一 直 不 能 令 人 满意 。 因 此 ,人 们 逐渐 尝试 对 OLTP 数据 库 
中 的 数据 进行 再 加 工 , 形 成 一 个 综合 的 、 面 向 分 析 的 环境 ,以 更 好 地 支持 决策 分 析 。 数 据 仓 
库 和 联机 分 析 处 理 (online analysis processing, OLAP) 是 决策 支持 系统 的 有 机 组 成 部 分 。 
数据 仓库 从 分 布 在 企业 内 部 各 处 的 OLTP 数据 库 中 提取 数据 并 对 所 提取 的 数据 进行 预 处 
理 , 为 企业 决策 分 析 提 供 所 需 的 数据 ;OLAP 则 利用 存储 在 数据 仓库 中 的 数据 完成 各 种 分 
析 操 作 , 并 以 直观 易 懂 的 形式 将 分 析 结 果 返 回 给 决策 分 析 人 员 。 


3.1 OLAP 概述 


3.1.1 OLAP 的 由 来 


在 过 去 的 二 十 几 年 中 ,大 量 的 企业 利用 关系 型 数据 库 来 存储 和 管理 业务 数据 ,并 建立 相 
应 的 应 用 系统 来 支持 日 常 业务 运作 。 这 种 应 用 以 支持 业务 处 理 为 主要 目的 ,被 称 为 联机 事 
务 处 理 , 它 所 存储 的 数据 被 称 为 操作 型 数据 或 业务 数据 。 

随 着 数据 库 技术 的 广泛 应 用 和 市 场 竞争 的 日 趋 激 烈 , 企 业 更 加 强调 决策 的 及 时 性 和 准 
确 性 。 传 统 的 联机 事务 处 理 系 统 作 为 数据 管理 的 手段 ,对 于 分 析 处 理 的 支持 不 能 满足 决策 
管理 者 对 数据 库 进行 复杂 分 析 和 获取 直观 易 懂 的 查询 结果 的 要 求 ,因此 ,以 支持 决策 管理 分 
析 为 主要 目的 的 应 用 迅速 崛起 。 人 们 开始 尝试 对 OLTP 数据 库 中 的 数据 进行 再 加 工 , 形 成 

一 个 综合 的 ` 面 向 分 析 的 .更 好 的 支持 决策 制定 的 决策 支持 系统 (decision support system， 
DSS)。 因 此 ,Codd 提出 了 多 维 数据 库 和 多 维 分 析 的 概念 , 即 联机 分 析 处 理 。 


3.1.2 OLAP 的 一 些 基本 概念 


(1) 维 (dimension)。 维 是 人 们 观察 数据 的 特定 角度 。 例 如 ,企业 常常 关心 产品 销售 随 
时 间 的 变化 情况 ,这 是 从 时 间 的 角度 来 观察 产品 的 销售 ,因此 时 间 就 是 一 个 维 。 又 例如 银行 
会 给 不 同 经 济 性 质 的 企业 贷款 ,如 国有 企业 、 集 体 企 业 等 ,车 从 企业 性 质 的 角度 来 分 析 贷 款 
数据 ,那么 经 济 性 质 也 就 成 了 一 个 维度 。 

(2) 维 层次 (level)。 人 们 观察 数据 的 某 个 特定 角度 ( 即 某 个 维 ) 还 可 以 存在 细节 程度 不 
同 的 各 个 描述 方面 (时 间 维 : 日 期 ,月份 .季度 \ 年 ) , 称 这 多 个 描述 方面 为 维 的 层次 。 

(3) 维 成 员 C(member) 。 维 的 一 个 取 值 称 为 该 维 的 一 个 维 成 员 ,是 数据 项 在 某 维 中 位 置 
的 描述 (如 * 某 年 某 月 某 日 "是 在 时 间 维 上 位 置 的 描述 ) 。 如 果 一 个 维 是 多 层次 的 ,那么 该 维 
的 维 成 员 是 在 不 同 维 层次 的 取 值 组 合 。 

»。5] 。 


(4) 多 维 数 据 集 。 多 维 数据 集 是 决策 支持 的 支柱 ,也 是 OLAP 的 核心 ,有 时 也 称 为 立方 
体 或 超 立方 体 。 三 维 数据 可 以 利用 三 维 坐标 建立 立方 体 进行 表示 , 超 三 维 数据 可 以 利用 一 
个 多 维 表 来 进行 显示 。 

(5) 数据 单元 。 在 多 维 数据 集中 每 个 维 都 选 定 一 个 维 成 员 以 后 ,这 些 维 成 员 的 组 合 就 
唯一 确定 了 一 个 数据 单元 ( 维 1 维 成 员 , 维 2 维 成 员 , 维 3 维 成 员 ,…)。 

(6) 多 维 数据 集 的 度量 值 : 在 多 维 数据 集中 有 一 组 度量 值 ,这 些 值 是 基于 多 维 数据 集 
中 事实 表 的 一 列 或 多 列 数字 。 度 量 值 是 多 维 数据 集 的 核心 值 ,是 最 终 用 户 在 数据 仓库 应 用 
中 所 需要 查看 的 数据 。 


3.1.3 ”OLAP 的 定义 与 特征 


OLAP 委员 会 对 联机 分 析 处 理 的 定义 为 ,使 分 析 、 管 理 或 执行 人 员 能 够 从 多 种 角度 对 
从 原始 数据 中 转化 出 来 的 、 能 够 真正 为 用 户 所 理解 的 、 并 真实 反映 企业 维特 性 的 信息 进行 快 
速 .一 致 ,交互 地 存 取 ,从 而 获得 对 数据 更 深入 了 解 的 一 类 软件 技术 。 

联机 分 析 处 理 的 用 户 是 企业 中 的 专业 分 析 人 员 及 管理 决策 人 员 ,他 们 在 分 析 业 务 经 营 
数据 时 ,从 不 同 的 角度 来 审视 业务 的 衡量 指标 是 一 种 很 自然 的 思考 模式 。 例 如 分 析 销 售 数 
据 , 可 能 会 综合 时 间 周 期 产品 类 别 ,分 销 渠道 地理 分 布 . 客 户 群 类 等 多 种 因素 来 考量 。 而 
联机 分 析 处 理 就 是 直接 仿照 用 户 的 多 角度 思考 模式 ,预先 为 用 户 组 建 多 维 的 数据 模型 。 这 
里 , 维 是 指 用 户 的 分 析 角 度 。 一 旦 多 维 数据 模型 建立 完成 ,用 户 可 以 快速 地 从 各 个 分 析 角 度 
获取 数据 ,也 能 动态 地 在 各 个 角度 之 间 切 换 或 者 进行 多 角度 综合 分 析 , 从 而 具有 极 大 的 分 析 
灵活 性 。 这 也 是 联机 分 析 处 理 在 近年 来 被 广泛 关注 的 根本 原因 , 它 从 设计 理念 和 真正 实现 
上 都 与 日 有 的 管理 信息 系统 有 着 本 质 的 区 别 。 其 主要 特征 概括 如 下 : 

(1) 快速 性 。 用 户 对 OLAP 的 快速 反应 能 力 有 很 高 的 要 求 , 系 统 应 能 在 5 秒 内 对 用 户 
的 大 部 分 分 析 要 求 做 出 反应 ,这 也 是 OLAP 的 一 个 显著 特点 。 

(2) 可 分 析 性 。OLAP 系统 应 能 处 理 与 应 用 有 关 的 任何 逻辑 分 析 和 统计 分 析 , 用 户 无 
须 编 程 就 可 以 定义 新 的 计算 ,将 其 作为 分 析 的 一 部 分 ,并 以 用 户 理想 的 方式 给 出 报告 。 用 户 
可 以 在 OLAP 平 台 上 进行 数据 分 析 , 也 可 以 连接 到 其 他 外 部 分 析 工 具 上 ,如 时 间 序 列 分 析 
工具 、 成 本 分 配 工具 、 意 外 报警 数据 开采 等 。 

(3) 多 维 性 。 它 是 OLAP 的 关键 属性 。 系 统 必须 提供 对 数据 分 析 的 多 维 视 图 和 分 析 ， 
包括 对 层次 维和 多 重 层次 维 的 完全 支持 。 事 实 上 ,多 维 分 析 是 分 析 企 业 数 据 最 有 效 的 方法 ， 
是 OLAP 的 灵魂 。 

(4) 信息 性 。 不 论 数 据 量 有 多 大 ,也 不 管 数据 存储 在 何 处 ,OLAP 系统 应 能 及 时 获得 信 
息 , 并 且 能 管理 大 容量 信息 。 这 里 有 许多 因素 需要 考虑 ,如 数据 的 可 复制 性 、 可 利用 的 磁盘 
空间 .OLAP 产品 的 性 能 及 与 数据 仓库 的 结合 度 等 。 


3.2 OLAP 中 的 多 维 分 析 操 作 


OLAP 的 基本 多 维 分 析 操 作 有 钻 取 (drilup 和 drill-down)、 切 片 (slice) 和 切 块 (dice) 
以 及 旋转 (pivot) 等 。 


“ SB2 & 


3.2.1 钻 取 
营业 收入 


钻 取 是 改变 维 的 层次 ,变换 分 析 的 粒度 。 分 行 2 /fg 
它 包 括 向 下 钻 取 (drilhdown) 和 向 上 钻 取 分 行 1 
(Cdrill-up) 。drill-up 是 在 某 一 维 上 将 低层 次 的 
细节 数据 概括 到 高 层次 的 汇总 数据 ,或 者 减少 
维 数 ;而 Drill-down 则 相反 , 它 从 汇总 数据 深 2007 年 | 2544 3011 | 3553 4211 
入 到 细节 数据 进行 观察 或 增加 新 维 。 例 如 : 2006 年 | 2138 | 2652 | 3079 | 4305 
图 3-1 所 示 的 数据 立方 体 经 过 沿 着 银行 分 行 
维 的 概念 层次 上 卷 , 由 银行 分 行 上 升 到 城市 ， 
得 到 图 3-2 所 示 的 立方 体 ; 图 3-1 所 示 的 数据 
立方 体 经 过 沿 时 间 维 下 钻 ,由 年 度 下 降 到 
2008 年 的 各 个 季度 ,得 到 图 3-3 所 示 的 数据 立方 体 。 


天 津 分 行 2 
S4000 /人 
北京 2 分 行 1 


2008 年 | 2330 | 2954 | 3412 | 3956 


2005 年 | 1842 | 2241 | 3142 | 3392 
支行 1 支行 2 支行 3 支行 4 
图 31 多 维 数据 立方 体 


2008 年 | 65000 第 1 季度 | 540 
2007 年 第 2 季度 | 610 
2006 年 第 3 季度 | 650 
2005 年 第 4 季度 | 530 
支行 1 支行 2 支行 3 支行 4 支行 1 支行 2 支行 3 支行 4 
图 32 多 维 立方 体 上 卷 结果 图 33 多 维 立 方 体 下 钻 后 结果 


3.2.2 切片 和 切 块 

(1) 切片 。 在 给 定数 据 立方 体 的 一 个 维 上 进行 选择 操作 就 是 切片 ,切片 的 结果 是 得 到 
一 个 二 维 平面 数据 。 例 如 ,对 图 3-1 所 示 数 据 立 方 体 ,使 用 条 件 : 

银行 分 行 =" 分 行 1" 
进行 选择 ,就 相当 于 在 原来 的 立方 体 中 切 出 一 片 , 结 果 如 图 3-4 所 示 。 

(2) 切 块 。 在 给 定数 据 立方 体 的 两 个 或 多 个 维 上 进行 选择 操作 就 是 切 块 , 切 块 的 结果 
得 到 一 个 子 立 方 体 。 例 如 ,对 图 3-1 所 示 数 据 立 方 体 ,使 用 条 件 : 


(银行 分 行 = "分 行 1"OR" 分 行 2") 
RND (时 间 ="2007 年 "OR"2008 年 ") 
RND (银行 支行 = "支行 1"OR" 支 行 2") 


进行 选择 ,就 相当 于 在 原 立 方 体 中 切 出 一 小 块 ,结果 如 图 3-5 所 示 。 
3.2.3 旋转 


旋转 是 变换 维 的 方向 , 即 在 表格 中 重新 安排 维 的 放置 (例如 行列 互 换 )。 例 如 , 表 3-1 给 
。53 。 


2008 年 | 2330 | 2954 | 3412 | 3956 分 行 1 


2007 年 | 2544 | 3011 | 3553 | 4211 2008 年 | 2330 


2006 年 | 2138 | 2652 | 3079 | 4305 


2007 年 | 2544 3011 


2005 年 | 1842 | 2241 | 3142 | 3392 
支行 1 支行 2 支行 3 支行 4 支行 1 ”支行 2 
图 34 多 维 立方 体 切片 结果 图 35 多 维 立方 体 切 块 结果 


出 的 是 按 部 门 ,年 .季度 排 列 的 结果 ,而 表 3-2 是 按 年 .季度 ,部门 排列 的 结果 。 
表 3-1 部门. 年 .季度 排列 表 


2008 年 2009 年 
一 季度 | 二 季度 三 季度 | 四 季度 | 一 季度 | 二 季度 三 季度 四 季度 
部 门 一 50 60 70 80 40 50 60 70 
部 门 二 60 65 75 85 45 55 65 75 
部 门 三 90 100 105 120 80 75 55 60 


表 3-2 部门. 季度、 年 排列 表 


部 门 一 部 门 二 部 门 三 
一 季度 50 60 90 
二 季度 60 65 100 
2008 年 
三 季度 70 用 105 
四 季度 80 75 120 
一 季度 40 45 80 
二 季度 50 55 75 
2009 年 - 
三 季度 60 65 55 
四 季度 70 75 60 


图 3-6 是 图 3-1 所 示 立 方 体 通过 旋转 横 纵 坐标 得 到 的 立方 体 。 
分 行 LA2330 


支行 1 | 1943 


支行 3 | 


2008 年 2007 年 2006 年 2005 年 
图 36 多 维 立方 体 横 纵 坐标 转轴 结果 
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3.3 OLAP 的 基本 数据 模型 


OLAP 系统 一 般 以 数据 仓库 作为 基础 ,从 数据 仓库 中 抽取 详细 数据 的 一 个 子 集 ,经 过 
必要 的 聚集 存储 到 OLAP 存储 器 中 供 前 端 分 析 工 具 读 取 。 为 了 保证 信息 处 理 所 需 的 数据 
以 合适 的 粒度 、 合 理 的 抽象 程度 和 标准 化 程度 存储 ,按照 其 数据 存储 格式 可 以 分 为 关系 
OLAP(relational OLAP,ROLAP) 多维 OLAP(multidimensional OLAP,MOLAP) 和 混合 
型 OLAP(hybrid OLAP,HOLAP) 这 3 种 类 型 。 


3.3.1 多 维 联机 分 析 处 理 


MOLAP 利用 一 种 专 有 的 多 维 数据 库 来 存储 OLAP 分 析 所 需要 的 数据 ,数据 采用 n 维 
数组 的 多 维 方 式 存储 ,形成 “立方 体 ” 的 结构 ,并 以 多 维 视图 的 方式 显示 。MOLAP 存储 模式 
将 数据 与 计算 结果 都 存储 在 立方 体 结构 中 ,即将 多 维 数据 集 区 的 聚合 维度 、 汇 总 数据 以 及 
其 源 数 据 的 副本 等 信息 均 以 多 维 结构 存储 在 分 析 服 务 器 上 。 

1. MOLAP 的 创建 步骤 

确定 分 析 功能 : 在 筹建 MOLAP 的 时 候 首先 要 选择 分 析 的 功能 是 什么 。 

确定 分 析 值 : 根据 功能 的 选择 ,确定 相应 的 分 析 数 值 。 

构造 分 析 维 : 构造 分 析 维 , 即 确定 从 哪些 角度 来 分 析 这 些 分 析 数 值 。 

定义 逻辑 模型 : 在 确定 了 MOLAP 的 分 析 对 象 . 分 析 角 度 及 详 略 程度 之 后 就 可 以 定义 
逻辑 模型 和 多 维 数据 存储 的 方式 。 

2. MOLAP 的 功能 

(1) 与 多 维 数据 库 进行 交互 的 功能 。 可 以 与 数据 库 中 的 信息 进行 交互 ,从 而 在 分 析 决 
策 中 完成 了 预测、 预算、 计划。 

(2) 快速 反应 的 功能 。MOLAP 的 快速 反应 功能 可 以 为 用 户 提供 良好 的 联机 分 析 
环境 。 

(3) 挖掘 信息 间 内 在 联系 的 功能 。MOLAP 利用 强大 的 计算 引擎 和 比较 分 析 , 分 析 数 
据 库 中 各 种 信息 之 间 的 微妙 关系 。 

3. MOLAP 的 优 缺 点 

MOLAP 结构 的 主要 优点 是 它 能 迅速 地 响应 决策 分 析 人 员 的 分 析 请 求 并 快速 地 将 
分 析 结 果 返 回 给 用 户 , 其 缺点 是 限制 了 MOLAP 结构 的 灵活 性 ,主要 表现 在 以 下 几 
方面 。 

(1) 用 户 很 难 对 维 数 进行 动态 变化 。 每 增加 一 维 都 会 使 多 维 数据 库 的 规模 急剧 增加 ， 
所 需 的 预 处 理 时 间 也 会 大 大 增加 。 

(2) 对 数据 变化 的 适应 能 力 较 差 。 当 数据 或 计算 频繁 变化 时 ,其 重复 计算 量 相当 大 ,有 
时 还 需 重新 构建 多 维 数据 库 。 

(3) 处 理 大 量 细节 数据 的 能 力 差 。 由 于 MOLAP 的 预 处 理 能 力 较 强 ,这 就 限制 了 它 处 
理 大 量 细节 数据 的 能 力 。 
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3.3.2 关系 联机 分 析 处 理 


1. ROLAP 的 数据 模型 

ROLAP 的 底层 数据 库 是 关系 型 数据 库 , 其 数据 以 及 计算 结果 均 直 接 由 关系 数据 
库 获 得 ,并且 以 关系 型 的 结果 进行 多 维 数据 的 表示 和 存储 。 在 ROLAP 中 ,数据 的 预 处 
理 程度 一 般 不 高 ,但 是 灵活 性 高 ;用 户 可 以 动态 定义 统计 和 计算 方式 ,可 移植 性 好 。 
ROLAP 一 般 采 用 星 状 模式 (star schema) 或 雪花 状 模式 (snowflake schema) 来 表达 多 维 
数据 视图 。 

(1) 星 状 模式 。 这 是 一 种 最 常见 的 模型 范例 ,其 包括 一 个 大 的 包含 大 批 数 据 并 且 不 含 
元 余 的 中 心 表 (事实 表 ) ;一 组 小 的 维 表 , 每 维 一 个 。 这 种 模式 图 很 像 星 光 四 射 , 维 表 围 绕 中 
心事 实 表 显示 在 射线 上 。 例 如 ,图 3-7 表示 的 是 一 个 星 型 模式 。 


时 间 ID 


图 37 星 状 模型 的 关系 数据 库 表 示 


(2) 雪花 状 模式 。 雪 花 状 模式 是 星 状 模式 的 变种 ,其 中 某 些 维 是 规范 化 的 ,因而 把 数据 
进一步 分 解 到 附加 表 中 ,结果 模式 图 就 会 形成 类 似 于 雪花 的 形状 。 例 如 ,图 3-8 表示 的 是 一 
个 雪花 模式 。 

雪花 状 模式 和 星 状 模式 的 区 别 在 于 ,雪花 状 的 维 表 可 能 是 规范 化 形式 ,以 便 减 少 元 余 。 
这 种 表 易 于 维护 并 节省 存储 空间 。 然 而 ,与 巨大 的 事实 表 相 比 , 这 种 空间 的 节省 可 以 忽略 。 
此 外 ,由 于 执行 查询 需要 更 多 的 连接 操作 ,雪花 状 结构 可 能 降低 浏览 的 性 能 。 系 统 的 性 能 可 
能 受到 相对 影响 。 因 此 ,尽管 雪花 状 模式 减少 了 元 余 , 但 是 在 数据 仓库 设计 中 ,雪花 模式 不 
如 星 状 模型 流行 。 

2. ROLAP 的 创建 步骤 

ROLAP 的 创建 和 MOLAP 的 创建 一 样 需 要 进行 选择 确定、 构造 .定义 ,然后 还 需要 完 
成 数据 管理 .元 数据 存储 应 用 工具 构造 等 操作 。 

(1) 数据 管理 。 为 了 合理 有 效 地 进行 关系 数据 库 的 管理 ,需要 在 数据 库 中 添加 合适 的 
聚集 数据 和 概括 数据 ,将 较 大 的 数据 库 分 解 成 可 管理 的 部 分 ,添加 生成 索引 和 位 图 索引 来 提 
高 ROLAP 的 处 理 效率 。 

(2) 元 数据 存储 。ROLAP 的 应 用 主要 依赖 元 数据 的 生成 和 存储 。 
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产品 ID 公司 ID 产品 颜色 ID 产品 商标 ID 产品 类 型 ID 
CBB 公司 名 称 E> 商标 名 称 “/ 人 产品 类型 名 移 


产品 ID 
公司 ID 
产品 颜色 ID 
产品 商标 ID 
产品 类 型 ID 


时 间 
维 表 时 间 ID 


3.8 雪花 状 模式 的 关系 数据 库 表 示 


(3) 应 用 工具 构造 。 需 要 利用 数据 库 的 应 用 视图 或 维 视 图 构造 客户 工具 。 数 据 库 可 以 
利用 查询 结果 进行 多 维 操作 ,实现 计算 、 公 式 数据 到 应 用 的 转化 ,并 可 以 将 结果 及 时 地 反映 
给 用 户 ,在 进行 进一步 处 理 后 ,再 显示 给 客户 。 

3. ROLAP 的 功能 

(1) 细节 剖析 。 人 允许 用 户 在 ROLAP 上 进行 数据 的 聚集 ,概括 分 级 .分 解 和 剖析 细节 ， 
并 且 可 以 对 其 子 集 进行 个 案 的 分 析 。 

(2) 数据 的 备份 和 安全 功能 。 用 户 不 仅 可 以 对 数据 库 进行 数据 的 备份 和 安全 管理 ,而 
且 还 可 以 由 数据 管理 员 进 行 增强 性 的 控制 。 

(3) 数据 的 商业 视图 。 商 业 视 图 的 设计 是 基于 维 模型 的 ,可 以 通过 ROLAP 将 星 状 模 
型 .雪花 状 模型 和 混合 模型 转化 为 商业 视图 。 

(4) 元 数据 导航 功能 。ROLAP 可 以 对 全 局 数据 库 新 生 的 元 数据 进行 合理 的 导航 。 

(5) 维 层次 支持 。ROLAP 需要 能 够 提供 维 层次 操作 的 支持 ,能 够 实现 维 层 次 与 关系 数 
据 存储 的 转化 与 管理 。 

(6) 模型 的 自 定义 。ROLAP 允许 用 户 对 分 析 模 型 进行 自 定义 ,根据 决策 分 析 的 需要 选 
择 不 同 的 计算 ,统计 和 各 种 分 析 模 型 。 

ROLAP 的 主要 特点 是 它 的 灵活 性 强 , 用 户 可 以 动态 定义 统计 或 计算 方式 。ROLAP 的 
缺点 是 它 对 用 户 的 分 析 请 求 处 理 时 间 要 比 MOLAP 长 。 


3.3.3 MOLAP 和 ROLAP 的 比较 
多 维 联机 分 析 处 理 和 关系 联机 分 析 处 理 的 比较 分 析 如 表 3-3 所 示 。 
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表 3-3 ROLAP 和 MOLAP 的 比较 


ROLAP MOLAP 
沿用 现 有 的 关系 数据 库 的 技术 专 为 OLAP 所 设计 

响应 速度 比 MOLAP 慢 性 能 好 、 响 应 速度 快 

数据 装载 速度 快 数据 装载 速度 慢 


需要 进行 预计 算 , 可 能 导致 数据 爆炸 , 维 数 有 限 ;无 


存储 空间 耗费 小 , 维 数 没有 限制 法 支持 维 的 动态 变化 


借用 关系 数据 库存 储 数据 ,没有 文件 大 小 限制 受 操 作 系 统 平台 中 文件 大 小 的 限制 


可 以 通过 SQL 实现 详细 数据 与 概要 数据 的 存储 | 缺乏 数据 模型 和 数据 访问 的 标准 


不 支持 有 关 预 计算 的 读 写 操作 支持 高 性 能 的 决策 支持 计算 
SQL 无 法 完成 部 分 计算 复杂 的 跨 维 计算 

无 法 完成 多 行 的 计算 多 用 户 的 读 写 操作 

无 法 完成 维 之 间 的 计算 行 级 的 计算 

维护 困难 管理 简便 


3.3.4 混合 型 联机 分 析 处 理 


由 于 MOLAP 与 ROLAP 有 着 各 自 不 同 的 优 缺点 , 且 它 们 的 结构 也 不 同 , 这 给 分 析 人 
员 设 计 OLAP 结构 时 提出 了 难题 ,他 们 必须 在 两 种 结构 之 间 进 行 筛选 ,为 此 一 个 新 的 
OLAP 结构 一 一 混合 型 OLAP 被 提出 。 在 HOLAP 中 ,原始 数据 和 ROLAP 一 样 存储 在 原 
来 的 关系 数据 库 中 ,而 聚合 数据 则 以 多 维 的 形式 存储 。 

HOLAP 结构 不 是 MOLAP 与 ROLAP 结构 的 简单 组 合 , 而 是 这 两 种 结构 技术 优点 的 
有 机 结合 ,能 满足 用 户 各 种 复杂 的 分 析 请 求 。 一 个 真正 的 HOLAP 系统 应 能 遵循 以 下 几 个 
准则 。 

(1) 维 数 能 够 被 动态 更 新 ,一 个 真正 的 HOLAP 不 但 可 以 提供 对 数据 的 实时 存 取 ,还 可 
以 根据 不 断 变 化 的 结构 对 维 数 进行 更 新 。 

(2) 可 根据 关系 数据 库 管理 系统 的 元 数据 产生 多 维 视图 。 

(3) 可 以 快速 地 存 取 各 种 级 别 的 汇总 数据 。 

(4) 可 适应 大 数据 量 数据 的 分 析 。 

(5) 可 以 方便 地 对 计算 和 汇总 算法 进行 维护 和 修改 。 


3.4 OLAP 的 衡量 标准 


1993 年 E. F. Codd 提出 了 关于 OLAP 的 12 条 标准 ,其 目的 是 希望 能 加 深 对 OLAP 的 
理解 。 事 实 上 ,这 些 标准 已 经 成 为 OLAP 工具 所 应 该 具有 的 关键 特性 的 最 小 描述 。 尽 管 
Codd 提出 的 12 个 准则 也 需要 不 断 完善 ,但 现 阶 段 仍 是 评价 和 购买 OLAP 产品 的 参考 标 
准 。 这 些 标准 主要 包括 : 

准则 1 OLAP 模型 必须 提供 多 维 概念 视图 。 

从 用 户 分 析 员 的 角度 来 看 ,整个 企业 的 视图 本 质 上 是 多 维 的 ,因此 OLAP 的 概念 模型 
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也 应 该 是 多 维 的 。 企 业 决策 分 析 的 目的 不 同 ,决定 了 分 析 和 衡量 企业 的 数据 总 是 从 不 同 角 

度 来 进行 的 ,所 以 企业 数据 空间 本 身 就 是 多 维 的 。 一 个 OLAP 产品 作为 分 析 的 工具 ,应 该 

提供 直观 的 多 维 分 析 模 型 进行 分 析 、` 设 计 和 维 内 到 维 间 的 计算 。 这 种 多 维 模型 可 以 使 最 终 分 

析 以 比 单一 维 模型 更 简单 .直观 的 方式 操纵 多 维 数据 。 通 过 对 多 维 数据 模型 进行 切片 . 切 块 和 

维 旋转 就 可 以 轻松 地 完成 传统 的 操作 方法 必须 用 较 长 的 时 间 和 极 大 的 代价 才能 完成 的 工作 。 
准则 2 ”透明 性 准则 。 

透明 性 原则 包括 两 层 含义 : 首先 , OLAP 在 体系 结构 中 的 位 置 对 用 户 是 透明 的 。 
OLAP 应 处 于 一 个 真正 的 开放 系统 结构 中 ,允许 分 析 工 具 嵌 入 到 分 析 员 指定 的 任何 位 置 而 
不 影响 嵌入 工具 的 性 能 。 这 对 保持 用 户 现 有 的 效率 ,保证 良好 的 性 能 至 关 重 要 。 同 时 必须 
保证 OLAP 的 嵌入 不 会 引入 和 增加 任何 复杂 性 ;其 次 ,OLAP 的 数据 源 对 用 户 的 需求 是 只 
需 使 用 熟悉 的 查询 工具 进行 查询 ,而 不 必 关 心 输入 OLAP 工具 的 数据 是 来 自 于 同 质 还 是 异 
质 的 企业 数据 源 。 

准则 3 存 取 能 力 准则 。 

OLAP 系统 不 仅 能 进行 开放 的 存 取 , 而 且 还 能 提供 高 效 的 存 取 策略 。OLAP 用 户 分 析 
员 能 在 公共 概念 视图 的 基础 上 对 关系 数据 库 和 外 部 存储 的 数据 进行 分 析 。 要 实现 这 些 功 
能 ,就 要 求 OLAP 能 将 自己 的 概念 视图 映射 到 异 质 的 数据 存储 上 ,能 访问 数据 并 执行 所 需 
的 转换 ,从 而 提供 单一 、 完 整 的 用 户 视图 。 另 外 OLAP 系统 应 提供 高 效 的 存 取 策略 ,应 使 系 
统 只 存 取 与 指定 分 析 有 关 的 数据 ,避免 多 余 的 数据 存 取 。 

准则 4 稳定 的 报表 性 能 。 

当 数 据 维 数 和 数据 综合 层次 增加 时 ,提供 给 最 终 分 析 员 的 报表 能 力 和 响应 速度 不 应 该 有 
明显 的 降低 和 减 慢 ,这 对 维护 OLAP 产品 的 易 用 性 和 低 复杂 性 至 关 重 要 。 即 便 是 企业 模型 改 
变 时 ,关键 数据 的 计算 方法 也 无 须 更 改 。 也 就 是 说 ,OLAP 系统 模型 对 企业 模型 应 该 具有 “ 重 
棱 ” 性 。 只 有 做 到 这 一 点 ,OLAP 工具 提供 的 数据 报表 和 所 做 的 预测 分 析 结 果 才 是 可 信和 的 。 

准则 5 客户 /服务 器 体系 结构 。 

OLAP 是 建立 在 客户 /服务 器 体系 结构 上 的 。 这 要 求 它 的 多 维 数据 服务 器 能 被 不 同 的 
应 用 工具 访问 到 。 服 务 器 端 智能 地 以 最 小 的 代价 完成 同 多 种 服务 器 之 间 的 挂 接任 务 ; 服 务 
器 端 必须 完成 分 散 的 企业 数据 的 逻辑 模式 和 物理 模式 之 间 的 映射 ,并 确保 它们 的 一 致 性 ,从 
而 保证 透明 性 和 建立 统一 的 公共 概念 模式 .逻辑 模式 和 物理 模式 。 客 户 端 负责 应 用 逻辑 及 
用 户 界 面 。 

准则 6 维 的 等 同性 准则 。 

每 一 数据 维 在 数据 结构 和 操作 能 力 上 都 是 等 同 的 。 系 统 可 以 将 附加 的 操作 能 力 授 给 所 
选 维 ,但 必须 保证 该 操作 能 力 可 以 授 给 任意 其 他 维 , 即 要 求 维 上 的 操作 是 公共 的 。 

准则 7 动态 的 稀 玻 矩阵 处 理 准则 。 

OLAP 工具 的 物理 模型 必须 充分 适应 指定 的 分 析 模 型 ,提供 “最 优 ”的 稀疏 和 矩阵 处 理 ， 
这 是 OLAP 工具 应 遵循 的 最 重要 的 准则 之 一 。 该 准则 包括 两 层 含 义 : 第 一 ,对 任意 给 定 的 
稀 朴 矩阵 ,存在 且 仅 存在 一 个 最 优 的 物理 视图 ,该 最 优 视 图 能 提供 最 大 的 内 存 效 率 和 矩阵 处 
理 能 力 ; 稀 朴 度 是 数据 分 布 的 一 个 特征 ,不 能 适应 数据 集合 的 数据 分 布 ,将 会 导致 快速 ,高效 
操作 失败 ;第 二 ,OLAP 工具 的 基本 物理 数据 单元 可 配置 给 可 能 出 现 的 维 的 子 集 。 同 时 ,还 
要 提供 动态 可 变 的 访问 方法 并 包含 多 种 存 取 机 制 。 
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准则 8 多 用 户 支持 能 力 准则 。 

多 个 用 户 分 析 员 可 以 同时 工作 于 同一 分 析 模 型 上 或 是 可 以 在 同一 企业 数据 上 建立 不 同 
的 分 析 模型 。OLAP 工具 必须 提供 并 发 访问 .数据 完整 性 及 安全 性 机 制 。 

准则 9 非 受 限 的 跨 维 操作 。 

多 维 数据 之 间 存 在 固有 的 层次 关系 ,这 就 要 求 OLAP 工具 能 自己 推导 出 而 不 是 最 终 用 
户 明 确定 义 出 相关 的 计算 。 对 于 无 法 从 固有 关系 中 得 出 的 计算 ,要 求 系统 提供 计算 完备 的 
语言 来 定义 各 类 计算 公式 。 

准则 10 直观 的 数据 操纵 。 

这 一 准则 要 求 数据 操纵 直观 易 懂 , 综 合 路 径 重 定位 、 向 上 综合 、 向 下 挖掘 和 其 他 操作 都 
可 以 通过 直观 方便 的 点 击 操作 完成 。 

准则 11 灵活 的 报表 生成 。 

报表 必须 从 各 种 可 能 的 方面 显示 出 从 数据 模型 中 综合 出 的 数据 和 信息 ,充分 反映 数据 
分 析 模 型 的 多 维特 征 。 

准则 12 ” 非 受 限 维 与 聚集 层次 。 

OLAP 工具 的 维 数 应 不 小 于 15 维 ,用 户 分 析 员 可 以 在 任意 给 定 的 综合 路 径 上 建立 任意 
多 个 聚集 层次 。 


谎 


3.5 基于 SQL Server 2005 的 OLAP 实现 


银行 在 其 业务 中 要 面 对 的 数据 是 海量 的 ,工作 人 员 的 工作 量 是 巨大 的 , 故 准确 定位 工作 
重点 的 必要 性 日 益 突 出 。 本 节 中 ,将 对 某 商业 银行 在 信贷 业务 中 产生 的 大 量 数据 进行 分 析 ， 
简单 介绍 在 银行 信贷 业务 中 如 何 应 用 联机 分 析 处 理 技术 在 统 找 全 局 总 体 把 握 的 基础 上 对 
海量 数据 进行 筛选 .定位 和 深入 分 析 。 其 目的 是 借助 SQL Server 2005 软件 ,通过 联机 分 析 
处 理 技术 ,从 时 间 ,分 行 代码 、 客 户 代码 ,余额 ,损失 等 不 同 维度 进行 分 析 , 以 帮助 银行 工作 人 
员 准 确定 位 工作 重点 。 

1. 启动 SQL Server 2005 

(1) 执行 “开始 ”| 程序 "| SQL Server Management Studio 菜单 命令 ,出现 如 图 3-9 所 


$6L serverz00s i 3 
服务 器 类 型 CD) 数据 库 引 擎 站 | 
服务 器 名 称 G) BC5A6D507174P9 加 | 
身份 验证 扩 ); indows 身份 验证 问 

用 户 名 中 [SBCah6DS0T1T4P9Uaaiaistrater 
密码 如 
门 记 住 客 码 如 
连接 人) 取消 帮助 迁 项 @) >> 


图 39 “连接 到 服务 器 ”对 话 框 
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示 的 “连接 到 服务 器 "对 话 框 。 
(2) 单 击 “连接 ”按钮 ,如 图 3-10 所 示 。 


图 310 Mcrosoft SQL Server Management Studio 


2. 新 建 数据 仓库 

在 构建 多 维 数据 集 之 前 ,需要 新 建 一 个 数据 仓库 ,以 存放 数据 源 、 多 维 数据 集 、 共 享 数据 
维度 ,挖掘 模型 和 数据 库 角 色 等 对 象 。 

(1) 右 击 “数据 库 ” 选 项 ,弹出 “新 建 数据 库 ” 对 话 框 ,在 “数据 库 名 称 ” 一 栏 填写 “商业 银 
行 ? 如 图 3-11 所 示 。 


一 
增 量 为 10%, 不 限制 增长 。 [ECVProem Fileswicrd 


连接 
3BC3NB05071T4P9\Adninistrator 
坦 查看 连 闪 属性 


图 311 和 富 建 数据 库 ” 对 话 框 


(2) 单 击 “确定 ”按钮 ,在 “对 象 资源 管理 器 "中 的 “数据 库 的 下 拉 菜 单 中 找到 “商业 银 
行 ”, 右 击 后 选择 “任务 ”1“ 导 入 数据 ”命令 ,如 图 3-12 所 示 。 
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Et 


分 离 四 ). 


四 有 陪 机 加) 
联机 CD) 


收缩 @) 


备份 至) 
还 原 到 ) 


镜像 吕 ) 
传送 事务 日 志 QL). 


生成 脚本 下) 


导出 数据 名) 
复制 数据 库 C). 


3 二” 导入 数据 "菜单 项 


(3) 在 弹出 的 如 图 3-13 所 示 的 对 话 框 中 单 击 “ 下 一 步 "按钮 ,在 “数据 源 " 栏 中 适当 的 选 
择 , 并 在 “数据 库 " 栏 中 选择 “商业 银行 ", 如 图 3-14 所 示 。 


欢迎 使 用 SQL Server 导入 和 导出 向 导 


此 向 导 可 帮助 您 锯 峙 简单 包 ， 以 便 在 多 种 常用 数据 格式 (包括 数据 库 、 电 子 表格 和 文本 
文件 ) 之 间 导 入 和 导出 数据 。 此 向 导 还 可 包 圣 目标 数据 库 和 用 于 插入 数据 的 表 。 


厅 不 再 显示 此 起 始 页 (0)。 
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图 313 导入 导出 向 导 


(4) 单 击 “ 浏 览 ” 按 钮 找到 所 要 导入 的 数据 ,如 图 3-15 所 示 。 

(5) 单 击 “ 下 一 步 ”按钮 弹出 如 图 3-16 所 示 对 话 框 ,将 “贷款 余额 表 ”、“ 分 行 代码 表 ”、 
“客户 基本 情况 表 ” 全 部 选中 。 

(6) 单 击 * 下 一 步 ?按钮 ,直至 完成 ,进入 到 如 图 3-17 所 示 的 验证 窗口 。 

3. 新 建 数据 源 

(1) 执行 “开始 ”| Microsoft Visual Studio 菜单 命令 ,如 图 3-18 所 示 。 

(2) 右 击 “ 数 据 源 ”, 选 择 * 新 建 ”命令 ,在 弹出 的 对 话 框 中 单 击 * 下 一 步 ? 按 钮 ,如 图 3-19 
所 示 。 
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正在 执行 操作 -. - ~ 
单 十 “停止” 接 钙 以 中 断 控 作 。 
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图 317 验证 窗口 


Visual Studio 
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图 318 Mcrosoft Visual Studio 


选择 如 何 定义 连接 
密 有 众多 方式 可 以 连 返 ， 以 便 数 据 源 对 其 连接 字符 串 进行 定义 。 


基于 现 有 连 深 或 新 连 娄 创 尘 数 锋 源 C) 
小 据 连 接 0); 
型 队员 
〇 基于 另 一 个 对 象 包 建 仇 据 源 
恬 必须 选择 一 个 有 效 连 接 。 
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图 319 数据 源 向 导 


(3) 单 击 * 新 建 > 按钮 进入 连接 管理 器 ,输入 服务 器 名 称 , 选 择 数 据 库 名 ,如 图 3-20 
所 示 。 
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图 320 资源 管理 器 


(4) 单 击 “ 确 定 ” 按 钮 ,进行 下 一 步 操作 ,选择 “使 用 服务 账户 ” 单 选 按钮 ,如 图 3-21 
所 示 。 


图 321 定义 数据 源 


4. 建立 数据 源 视图 
在 图 3-18 所 示 窗 口中 右 击 “数据 源 视图 ” .选择 “新 建 " 命 令 ,在 弹出 的 对 话 框 中 单 击 “ 下 
一 步 " 按 钮 ,最 后 单 击 “完成 "按钮 ,如 图 3-22 一 图 3-26 所 示 。 
“数据 源 视图 ”创建 完成 时 ,如 图 3-27 所 示 。 
。65 。 
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欢迎 使 用 数据 源 视图 向 导 


图 322 数据 源 视图 向 导 
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图 324 名 称 匹 配 
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图 325 选择 表 和 视图 


完成 向 导 
请 提供 一 个 名 称 ， 热 后 单 击 “ 完 成 ”以 外 建新 数据 滨 讽 图。 


图 3.27 数据 源 视图 


»。67 。 


5. 数据 浏览 
(1) 右 击 “贷款 余额 表 ”, 在 弹出 的 快捷 菜单 中 选择 “浏览 数据 "命令 ,如 图 3-28 所 示 。 
对 已 获得 的 数据 进行 浏览 ,原始 数据 表 如 图 3-29 所 示 。 
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图 328 数据 浏览 
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图 329 原始 数据 表 


(2) 选择 “透视 表 ”, 可 选择 需要 的 维度 对 原始 数据 进行 分 析 , 如 图 3-30 所 示 。 在 此 选 
择 “ 分 行 代码 ”和 “业务 发 生日 ”两 个 维度 进行 分 析 。 

(3) 选择 “图 表 ”, 可 选择 需要 的 维度 对 原始 数据 进行 分 析 , 如 图 3-31 所 示 。 选 择 分 行 
代码 、 客 户 代 码 、 次 级 、 可 疑 等 维度 进行 分 析 。 

(4) 选择 “透视 图 ”, 可 选择 需要 的 维度 对 原始 数据 进行 分 析 , 如 图 3-32 所 示 。 在 透视 
表 中 可 选择 需要 的 维度 (可 疑 . 关 注 、 余 额 \、 业 务 发 生日 ) 进 行 分 析 。 

(5) 把 “损失 ”和 “业务 发 生日 ”两 个 维度 拖 和 信 表 中 ,如 图 3-33 所 示 。 

(6) 由 于 数据 库 中 包含 了 整整 一 年 的 业务 记录 ,数据 量 比较 大 ,所 以 把 “业务 发 生日 ” 按 
月 份 拖 入 , 可 以 看 出 六 月 份 损失 最 多 达到 124987740, 所 以 银行 工作 人 员 应 把 工作 重点 放 到 

。 68 。 


图 3.30 从 透视 表 分 析 
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图 331 从 图 标 分 析 


图 332 从 透视 图 分 析 


ED 匾 辑 呈 ”视图 WW) 项 上 EE) 生成 名 ”调式 0) 数 腹 诗风 ”工具 CY) 窗口 如 ”社区 加 顶 助 如 
Tevalopment 加 


园 营 货 壹 余 赢 表 表 EE am [设计 ] Xx 


目 部 数 括 这 接 


sas ae 四 四 四 | 
Ca PE EL $ | 圈 目 mT 
] 


太 才 站 ] 后 国 业 各 生生 日 村 
芭 钊 ”| 日 国 业 名 发 生日 把 朋 


9 

| 

辕 

时 
IE 


图 333 月 和 损失 


六 月 份 的 相关 数据 上 ,为 了 进一步 缩小 范围 , 细 化 到 六 月 份 每 天 的 损失 状况 ,所 以 可 把 维度 
“日 ? 拖 和 人 表 中 ,如 图 3-34 所 示 。 
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图 334 日 和 损失 


(7) 从 图 3-34 中 可 以 看 出 损失 最 多 的 是 六 月 28 日 、30 日 这 两 天 , 故 可 以 把 工作 重点 进 
一 步 缩小 到 28 日 ,再 把 “分 行 代码 ”维度 拖 和 人 表 中 ,具体 分 析 是 哪 家 分 行 损失 最 多 ,如 图 3-35 
所 示 。 

(8) 可 以 看 出 代码 为 7707 的 分 行 损失 最 多 ,所 以 可 把 7707 分 行 作为 分 析 重 点 ,然后 把 
“损失 ”“ 日 ”“ 分 行 代码 ”三 个 维度 同时 拖 入 表 中 ,进行 三 维 分 析 , 如 图 3-36 所 示 。 

(9) 从 图 3-36 可 以 得 出 7707 分 行 在 六 月 28 日 的 损失 额 为 94438000 ,在 此 可 确定 其 为 
突破 口 ,为 了 具体 研究 7707 在 6 月 28 日 的 业务 情况 ,可 把 维度 换 为 “分 行 代 码 ”“ 客 户 代 
码 ”“ 日 ”, 如 图 3-37 所 示 。 
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图 337 三 维 分 析 人 ) 


分 析 可 得 代码 为 7707 的 分 行 ,在 6 月 28 日 的 客户 代码 计数 为 255, 所 以 可 以 把 这 255 
家 企业 的 情况 分 析 作为 工作 的 重点 。 


小 结 


本 章 首先 介绍 了 联机 分 析 处 理 技术 的 定义 .特征 和 维 、 数 据 单元 等 一 些 基 本 概念 。 然 后 
介绍 了 联机 分 析 处 理 中 的 钻 取 、 切 片 切 块 . 旋 转 等 多 维 分 析 操 作 。 接 下 来 又 介绍 了 联机 分 析 
处 理 的 基本 数据 类 型 ,包括 多 维 联机 分 析 处 理 、 关 系 联机 分 析 处 理 和 混合 型 联机 分 析 处 理 。 
最 后 具体 介绍 了 基于 SQL Server 2005 的 联机 分 析 处 理 实现 ,使 读者 了 解 了 联机 分 析 处 理 
的 应 用 过 程 。 


习题 3 


1. 什么 是 联机 分 析 处 理 ? 

2. 多 维 数据 结构 一 般 包 括 哪些 内 容 ? 常用 的 多 数据 分 析 方 法 有 哪些 ? 
3. 简 述 OLAP 的 评价 准则 。 

4. OLAP 的 基本 多 维 分 析 操 作 有 哪 几 种 ? 

5. 请 比较 ROLAP 与 MOLAP 在 数据 存储 ,技术 及 特点 上 的 不 同 。 
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第 4 介 数据 预 处 理 


数据 挖掘 是 随 着 数据 库 技 术 和 人 工 智 能 技术 的 进步 而 发 展 起 来 的 一 门 新 兴学 科 , 其 处 
理 对 象 是 大 量 的 日 常 业务 数据 。 原 始 业 务 数据 是 数据 挖掘 的 信息 来 源 ,而 这 些 数据 通常 仿 
有 了 噪声 ,大 量 的 空缺 值 和 不 一 致 现象 ,影响 数据 挖掘 的 效率 和 结果 的 有 用 性 ,甚至 产生 一 些 
无 效 归 纳 。 对 原始 数据 进行 预 处 理 , 为 数据 挖掘 过 程 提供 干净 准确、 简洁 的 数据 ,提高 挖掘 
效率 和 准确 性 ,是 数据 挖掘 中 非常 重要 的 环节 。 


4.1 数据 预 处 理 概述 


大 型 现实 世界 数据 库 的 一 个 共同 特点 是 存在 大 量 不 完整 的 、 含 噪声 的 和 不 一 致 的 数据 。 
用 于 数据 挖掘 的 原始 数据 源 可 能 是 多 个 数据 库 或 数据 仓库 ,而 这 些 数据 源 的 结构 和 规则 可 
能 是 不 同 的 ,这 将 导致 原始 数据 非常 的 杂乱 、 不 可 用 ;即使 在 同一 个 数据 库 中 ,也 可 能 存在 重 
复 的 和 不 完整 的 数据 信息 。 为 了 使 这 些 数据 能 够 符合 数据 挖掘 的 要 求 ,从 而 提高 效率 并 得 
到 清晰 的 结果 ,必须 进行 数据 预 处 理 。 


4.1.1 原始 数据 中 存在 的 问题 


归结 起 来 ,原始 数据 主要 存在 以 下 几 个 方面 的 问题 。 

1. 不 一 致 

由 于 原始 数据 来 源 于 多 个 不 同 的 应 用 系统 或 数据 库 , 信 息 庞杂 ,采集 和 加 工 的 方法 有 
别 , 数 据 描述 的 格式 也 各 不 相同 ,缺乏 统一 的 分 类 标准 和 信息 的 编码 方案 ,难以 实现 信息 的 
集成 共享 ,很 难 直 接 用 于 数据 挖掘 。 

2. 重复 

同一 事物 在 数据 库 中 存在 两 条 或 多 条 完全 相同 的 记录 ,或 者 相同 的 信息 元 余地 存在 于 
多 个 数据 源 中 。 

3. 不 完整 

实际 应 用 系统 中 ,由 于 系统 设计 的 不 合理 或 者 使 用 过 程 中 的 某 些 因素 , 某 些 属性 值 可 能 
会 缺失 或 者 不 确定 ,比如 ,认为 某 些 属性 不 重要 而 在 数据 输入 时 忽略 了 ,或 者 没有 能 够 获得 
确定 的 值 而 空缺 。 

4. 含 噪声 

噪声 是 指 一 个 测量 变量 中 的 随机 错误 或 偏离 期 望 的 孤立 点 值 , 产 生 噪 声 的 原因 很 多 , 比 
如 ,人 为 的 .设备 的 和 技术 的 等 。 

5. 维度 高 

原始 数据 中 通常 记录 事物 较为 全 面 的 属性 ,而 在 一 次 数据 挖掘 中 ,这些 属性 并 不 全 是 有 
用 的 ,只 需要 一 部 分 属性 就 可 以 得 到 期 望 知道 的 知识 ,而 且 , 无 用 属性 的 增加 还 可 能 会 导致 
无 效 归纳 ,把 挖掘 结果 引 向 错误 的 结论 。 


各 当当 沪 


6. 数据 不 平衡 

某 类 样本 数量 明显 少 于 其 他 类 样本 数量 的 数据 集 称 为 不 平衡 数据 集 。 不 平衡 数据 集 的 
分 类 问题 大 量 存 在 于 人 们 的 现实 生活 和 工业 生产 之 中 ,如 网 络 人 侵 、 医 疗 诊断 、 信 用 卡 欺 诈 
检测 .语音 处 理 、 信 息 检索 和 文本 分 类 等 。 

因此 ,直接 把 原始 数据 用 于 数据 挖掘 是 不 实际 的 ,一 个 完整 的 数据 挖掘 系统 应 该 提供 数 
据 预 处 理 模 块 ,此 模块 的 功能 是 为 数据 挖掘 的 算法 提供 完整 干净、 准确 .更 有 针对 人 性 的 数 
据 , 减 少 算法 的 计算 量 , 提 高 挖掘 效率 和 准确 程度 , 即 形成 供 数据 挖掘 算法 使 用 的 目标 数据 
知识 基 。 知 识 基 仍然 以 二 维 表 的 形式 存在 ,由 若干 筛选 出 来 的 元 组 和 属性 组 成 ,包含 了 与 挖 
掘 任务 相关 的 所 有 数据 的 特征 。 知 识 基 形成 的 前 提 是 根据 用 户 的 需要 ,确定 挖掘 任务 ,在 领 
域 专家 的 建议 和 指导 下 ,采用 合适 的 方法 重新 组 织 原始 数据 ,使 之 能 够 最 大 程度 上 支持 数据 
挖掘 算法 。 


4.1.2 数据 预 处 理 的 方法 和 功能 


数据 预 处 理 包 含 数据 清洗 .数据 集成 .数据 变换 和 数据 归 约 几 种 方法 ,本 节 简 要 介绍 各 
种 方法 的 概念 ,具体 的 内 容 和 例子 将 在 下 面 各 节 中 给 出 。 

1. 数据 清洗 (data cleaning) 

现实 世界 中 的 数据 通常 是 “ 脏 的 ”, 通 过 数据 清洗 过 程 填充 空缺 值 ,识别 孤立 点 ,去 掉 原 
始 数据 中 的 噪声 和 无 关 数 据 。 

例如 ,在 客户 数据 中 ,一 般 都 包括 客户 的 性 别 属性 ,如 * 男 ?或 “ 女 ”, 但 也 经 常 包 含 诸如 
“未 知 ” 之 类 的 值 或 者 空 值 ,这 些 噪声 数据 就 需要 通过 数据 清洗 来 保证 数据 质量 。 

2. 数据 集成 (data integration) 

数据 集成 是 将 多 个 数据 源 中 的 数据 结合 起 来 存放 在 一 个 一 致 的 数据 存储 中 ,数据 集成 
涉及 多 个 数据 源 的 数据 匹配 问题 ,数值 冲突 问题 和 数据 的 元 余 问 题 等 。 

例如 ,在 客户 数据 中 ,一 个 数据 源 可 能 用 千 元 表示 客户 收入 ,而 另 一 个 数据 源 可 能 使 用 
元 表示 同一 个 属性 。 

3. 数据 变换 (data transformation) 

数据 变换 是 把 原始 数据 转换 成 为 适合 数据 挖掘 的 形式 。 包 括 对 数据 的 汇总 和 聚集 、 概 
化 .规范 化 ,还 可 能 需要 进行 属性 的 构造 。 

4. 数据 归 约 (data reduction) 

数据 归 约 技术 用 于 产生 数据 的 归 约 表示 ,使 得 数据 量 减 小 ,更 适合 于 数据 挖掘 算法 的 需 
要 ,并 且 能 够 得 到 和 原始 数据 相同 的 分 析 结 果 。 用 到 的 主要 方法 包括 数据 立方 体 聚集 、 维 归 
约 ,数据 压缩 、 数 值 归 约 、 离 散 化 和 概念 分 层 等 。 


4.2 数据 清洗 


4.2.1 属性 选择 与 处 理 


数据 挖掘 中 使 用 的 数据 不 必 是 所 有 的 原始 数据 ,特别 是 当 一 些 属性 明显 和 挖掘 目的 无 
关 时 ,使 用 整个 原始 数据 反而 会 降低 挖掘 效率 ,甚至 产生 无 效 规律 ,所 以 ,应 该 从 原始 数据 中 
。74 。 


选取 合适 的 属性 进行 数据 挖掘。 选取 过 程 通常 根 据 行 业 知 识 或 专家 意见 进行 ,一 般 应 依据 
以 下 几 个 原则 。 

1. 尽 可 能 赋予 属性 名 和 属性 值 了 明确 的 含义 

通常 ,在 现实 数据 库 中 ,有 些 属性 名 称 和 属性 值 的 含义 不 是 很 明确 ,只 能 够 被 操作 人 员 
记 住 和 理解 ;而 实施 数据 预 处 理 和 数据 挖掘 的 人 一 般 不 可 能 是 操作 人 员 ,在 数据 预 处 理 的 初 
期 ,首先 要 对 名 称 和 取 值 含义 含糊 的 属性 进行 处 理 , 赋 给 它们 具有 明确 含义 的 名 称 和 取 值 ， 
便于 理解 和 使 用 。 

2. 统一 多 数据 源 的 属性 值 编码 

在 一 次 数据 挖掘 过 程 中 ,可 能 会 涉及 多 个 数据 源 的 多 张 表 , 所 以 要 保证 在 各 个 数据 源 中 
对 同一 事物 特征 的 描述 是 统一 的 。 

例如 ,在 多 个 数据 源 中 描述 性 别 的 属性 ,一 个 数据 源 用 * 男 *“ 女 ”作为 该 属性 的 值 , 另 一 
个 数据 源 可 能 使 用 *0”“1” 来 表示 ,第 三 个 数据 源 可 能 使 用 “M”、“F” 作 为 属性 值 ,在 多 个 数 
据 源 合并 的 时 候 , 就 需要 把 这 些 属性 值 统一 起 来 。 

3. 处 理 唯一 属性 

一 般 来 说 ,原始 数据 中 的 关键 属性 或 唯一 属性 对 数据 挖掘 是 无 用 的 ,它们 通常 用 来 作为 
记录 的 唯一 性 标识 ,不 形成 规则 ,可 以 去 除 。 但 是 ,如 果 需 要 建立 挖掘 结果 和 原始 数据 之 间 
的 直接 对 应 关系 的 话 , 通 常 要 保留 一 个 或 多 个 必需 的 关键 属性 或 唯一 属性 。 

4. 去 除 重复 属性 

有 时 候 ,原始 数据 中 会 出 现 意义 相同 或 者 可 以 用 于 表示 同一 信息 的 多 个 属性 ,如 年 龄 和 
出 生日 期 。 在 一 次 数据 挖掘 中 ,如 果 只 考察 某 些 客户 的 年 龄 段 和 消费 特征 的 关系 ,这 两 个 属 
性 就 是 重复 的 ,只 要 选取 一 个 就 可 以 满足 需要 。 当 然 ,在 某 次 挖掘 中 可 能 同时 需要 这 些 重复 
属性 ,如 考察 客户 年 龄 段 和 出 生 月 份 (或 季节 ) 对 消费 特征 的 影响 ,此 时 这 两 个 属性 就 表示 不 
同 的 信息 ,应 该 同时 保留 。 

5. 去 除 可 忽略 字段 

当 一 个 属性 值 缺失 非常 严重 ,只 有 极 少数 值 保存 下 来 时 ,该 属性 已 经 不 能 形成 任何 有 用 
的 知识 ,但 是 数据 挖掘 算法 反而 会 认为 这 些 大 量 的 空 值 形成 了 有 用 的 知识 。 所 以 这 样 的 属 
性 应 该 去 除 。 

6. 合理 选择 关联 字段 

如 果 属 性 X 可 以 由 另 一 个 或 多 个 属性 推导 或 者 计算 出 来 , 则 认为 这 些 字段 之 间 的 关联 
度 高 ,属性 X 和 它 的 关联 属性 对 数据 挖掘 的 作用 是 相同 的 ,所 以 只 选择 其 中 之 一 ,或 者 属性 
X ,或 者 它 的 关联 属性 。 

如 当 职 工 的 月 薪 和 有 薪 月 份 固定 时 ,月 薪 、 有 薪 月 份 和 年 薪 之 间 就 形成 了 高 度 的 关联 ， 
此 时 应 只 保留 月 薪 , 有 薪 月 份 或 者 年 薪 ; 另 如 ,商品 的 价格 .数量 和 总 价格 ,也 形成 高 度 关联 
关系 。 

经 过 以 上 处 理 之 后 ,还 需要 对 已 经 选择 的 属性 进一步 处 理 , 去 掉 数 据 中 的 噪声 .填充 空 
值 . 丢 失 值 和 处 理 不 一 致 数据 。 


4.2.2 空缺 值 处 理 


如 果 一 些 有 用 的 属性 因 某 种 原因 ,没有 记录 值 ,那么 必须 在 数据 清洗 中 对 这 些 空缺 值 进 
。75。 


行 处 理 . 处 理 的 方法 有 下 面 几 种 。 

1. 忽略 该 记录 

当 一 个 记录 中 有 多 个 属性 值 空缺 .特别 是 关键 信息 丢失 时 ,即使 采用 某 种 方法 把 所 有 缺 
失 的 属性 值 填充 好 ,该 记录 也 已 经 不 能 反映 真实 的 情况 ,对 于 数据 挖掘 算法 来 说 ,这 样 的 数 
据 性 质 是 很 差 的 ,应 该 忽略 该 记录 。 

2. 去 掉 属 性 

如 果 所 有 记录 中 的 某 一 个 属性 值 缺失 严重 ,可 以 认为 该 属性 对 于 知识 发 现 来 说 已 经 没 
有 意义 ,此 时 ,一 个 有 效 的 清洗 方法 就 是 把 该 属性 排除 在 挖掘 数据 集 之 外 。 

3. 写 空 缺 值 

以 某 些 背景 资料 为 依据 ,手工 地 填写 空缺 值 。 这 种 方法 的 优点 是 能 够 得 到 真实 的 数据 ， 
但 是 耗费 人 力 很 大 ,而 且 速 度 也 慢 ,不 能 用 来 处 理 较 大 的 和 值 缺 失 较 多 的 数据 集 。 

4. 使 用 默认 值 

对 于 离散 值 属性 ,用 一 个 常数 取代 空缺 值 ,表示 这 个 属性 值 是 未 知 的 ,如 unknown。 这 
种 方法 的 优点 是 简单 . 易 实 现 , 但 是 如 果 对 于 空缺 较 多 的 属性 ,所 有 空缺 都 用 这 个 默认 值 代 
蔡 ,挖掘 算法 很 可 能 认为 形成 了 一 个 有 用 的 知识 ,导致 挖掘 得 出 无 用 的 规律 ,所 以 应 尽量 少 
用 此 方法 。 

5. 使 用 属性 平均 值 

对 于 连续 属性 ,计算 所 有 记录 的 该 属性 平均 值 , 用 来 填充 空缺 值 。 

6. 使 用 同类 样本 平均 值 

计算 同类 样本 记录 的 该 属性 平均 值 ,用 来 填充 空缺 值 。 

7. 预测 最 可 能 的 值 

此 方法 是 一 种 最 常用 的 方法 , 它 从 现 有 数据 的 多 个 信息 推测 空缺 值 。 根 据 其 他 完整 的 
记录 数据 ,使 用 一 定 的 预测 方法 ,得 到 最 可 能 的 预测 值 。 

一 些 数据 挖掘 算法 在 处 理 空 值 方面 的 能 力 比较 强 , 如 决策 树 算法 .关联 规则 算法 等 ,能 
够 快速 地 产生 较为 准确 的 知识 模型 ,而 其 他 算法 则 可 能 花费 较 长 的 时 间 ,而 且 产生 的 模型 精 
确 性 差 一 些 ,如 神经 网 络 方法 。 另 外 ,由 于 数据 库 管理 系统 之 间 存 在 一 些 差异 ,不 同 的 数据 
库 系统 对 空 值 的 处 理 可 能 不 同 , 比 如 Oracle 数据 库 不 区 分 空 值 和 空 字符 串 。 在 进行 数据 预 
处 理 时 ,要 考虑 挖掘 算法 和 数据 库 系统 的 特点 ,选择 合适 的 预 处 理 方法 。 


4.2.3 噪声 数据 处 理 


在 测量 一 个 变量 时 可 能 产生 一 些 误差 或 者 错误 ,使 得 测量 值 相对 于 真实 值 有 一 定 的 偏 
差 , 这 种 偏差 称 之 为 噪声 。 为 了 去 除 这 些 噪 声 , 使 数据 接近 真实 值 . 可 以 采用 下 面 的 一 些 
方法 。 

1. 分 箱 (binning) 

分 箱 方 法 是 一 种 简单 常用 的 预 处 理 方法 ,通过 考察 相 邻 数据 来 确定 最 终 值 。 把 待 处 理 
的 数据 ( 某 列 属性 值 ) 按 照 一 定 的 规则 放 进 一 些 箱 子 中 ,考察 每 一 个 箱子 中 的 数据 ,采用 某 种 
方法 分 别 对 各 个 箱子 中 的 数据 进行 处 理 。 

所 谓 “ 箱 子 ”, 实 际 上 就 是 按照 属性 值 划 分 的 子 区 间 , 如 果 一 个 属性 值 处 于 某 个 子 区 间 范 
围 内 ,就 称 把 该 属性 值 放 进 这 个 子 区 间 代 表 的 “箱子 ”内 。 在 采用 分 箱 技 术 时 ,需要 确定 的 两 
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个 主要 问题 是 ,如 何 分 箱 以 及 如 何 对 每 个 箱子 中 的 数据 进行 平滑 处 理 。 分 箱 之 前 需要 对 记 
录 集 按 目标 属性 值 的 大 小 进行 排序 。 下 面 首 先 介绍 分 箱 的 方法 。 
(1) 统一 权重 。 也 称 等 深 分 箱 法 .将 数据 集 按 记 录 行 数 分 箱 , 每 箱 具 有 相同 的 记录 数 ， 
每 箱 记 录 数 称 为 箱 的 权重 ,也 称 箱子 的 深度 。 这 是 最 简单 的 一 种 分 箱 方 法 。 
(2) 统一 区 间 。 也 称 等 宽 分 箱 法 ,使 数据 集 在 整个 属性 值 的 区 间 上 平均 分 布 , 即 每 个 箱 
的 区 间 范 围 是 一 个 常量 , 称 为 箱子 宽度 。 
(3) 最 小 炉 。 使 在 各 区 间 分 组 内 的 记录 具有 最 小 的 伪 。 炉 是 信息 理论 中 数据 无 序 程度 
的 度量 标准 ,提出 信息 炉 的 基本 目的 ,是 找 出 某 种 符号 系统 的 信息 量 和 元 余 度 之 间 的 关系 ， 
以 便 能 用 最 小 的 成 本 和 消耗 来 实现 最 高 效率 的 数据 储存 管理 和 传递 。 
某 个 字符 (或 数值 ) 的 信息 量 的 基本 计算 公式 如 下 : 
I =—1b(P) (4-1) 
其 中 ,I 表示 信息 量 ,P 表示 某 种 字符 出 现 的 概率 .信息 量 的 单位 是 比特 (bit, 二 进 制 的 0 和 
1)。 数 据 集 的 炉 用 下 面 的 公式 计算 : 
H= Dp; lb(1/p;) (4-2) 


数据 集 的 炉 越 低 ,说明 数据 之 间 的 差异 越 小 ,最 小 炉 划 分 就 是 为 了 使 每 箱 中 的 数据 具有 
最 好 的 相似 性 。 

给 定 箱 的 个 数 ,如 果 考虑 所 有 可 能 的 分 箱 情 况 ,最 小 炉 方法 得 到 的 箱 应 该 是 具有 最 小 炉 
的 分 箱 。 

(4) 用 户 自 定义 区 间 。 当 用 户 明 确 希 望 观察 某 些 区 间 范 围 内 的 数据 分 布 时 ,可 以 根据 
需要 自 定 义 区 间 , 使 用 这 种 方法 可 以 方便 地 帮助 用 户 达 到 目的 。 

考虑 下 面 的 例子 : 

在 选 定 的 数据 集中 ,客户 收入 属性 income 排序 后 的 值 ( 人 民 币 元 ): 800 1000 1200 
1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000, 对 此 记录 集 分 别 应 用 
上 述 分 箱 技术 ,观察 分 箱 后 的 结果 。 

统一 权重 : 设 定 权 重 (箱子 深度 ) 为 4. 分 箱 后 

箱 1: 800 1000 1200 1500 

箱 2: 1500 1800 2000 2300 

箱 3: 2500 2800 3000 3500 

箱 4: 4000 4500 4800 5000 

统一 区 间 : 首先 确定 箱子 的 数目 ,比如 4, 根 据 数 据 集 的 取 值 范围 L800,5000] ,每 个 箱子 
的 宽度 为 (5000 一 800)/4, 得 到 4 个 宽度 相等 的 子 区 间 : [800,1850)、[1850,2900)、[2900， 
3950) 和 [3950,5000) 。 分 箱 后 

箱 1: 800 1000 1200 1500 1500 1800 

箱 2: 2000 2300 2500 2800 

箱 3: 3000 3500 

箱 4: 4000 4500 4800 5000 

用 户 自 定义 : 如 将 客户 收入 划分 为 1000 元 以 下 .1000 一 2000、2000 一 3000、3000 一 4000 
和 4000 元 以 上 几 组 ,分 箱 后 
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箱 1: 800 

箱 2: 1000 1200 1500 1500 1800 2000 

箱 3: 2300 2500 2800 3000 

箱 4: 3500 4000 

箱 5: 4500 4800 5000 

实际 应 用 中 ,要 根据 考察 目的 选用 合适 的 分 箱 方法 。 

分 箱 目 的 是 对 各 个 箱子 中 的 数据 进行 处 理 , 所 以 完成 分 箱 之 后 ,就 要 考虑 选择 一 种 方法 
对 数据 进行 平滑 ,使 得 数据 尽 可 能 接近 。 通 常 使 用 3 种 方法 进行 数据 平滑 : 按 平均 值 平滑 、 
按 边界 值 平滑 和 按 中 值 平滑 。 将 上 例 用 统一 区 间 方 法 分 箱 后 的 结果 ,分 别 采用 3 种 平滑 方 
法 进行 处 理 。 

(1) 按 平均 值 平滑 。 对 同一 箱 值 中 的 数据 求 平均 值 ,然后 用 这 个 平均 值 替代 该 箱子 中 
的 所 有 数据 。 应 用 此 平滑 方法 ,平滑 后 的 结果 如 下 : 

箱 1: 1300 1300 1300 1300 1300 1300 

箱 2: 2400 2400 2400 2400 

箱 3: 3250 3250 

箱 4: 4575 4575 4575 4575 

(2) 按 边界 值 平滑 。 对 于 箱子 中 的 每 一 个 数据 ,观察 它 和 箱子 两 个 边界 值 的 距离 ,用 距 
离 较 小 的 那个 边界 值 替代 该 数据 。 用 此 方法 平滑 后 的 结果 如 下 : 

箱 1: 800 800 800 1800 1800 1800 

箱 2: 2000 2000 2800 2800 

箱 3: 3000 3500 

箱 4: 4000 4000 5000 5000 

当 某 个 数据 与 左右 两 个 边界 值 的 距离 相等 时 ,可 以 约定 用 其 中 一 个 边界 替代 。 本 例 中 
使 用 左边 界 , 如 箱 4 中 的 第 2 个 数据 4500 用 左边 界 4000 代替 。 

(3) 按 中 值 平 滑 。 取 箱子 的 中 值 , 用 来 替代 箱子 中 的 所 有 数据 。 中 值 也 称 中 数 ,将 一 些 
数据 排序 之 后 ,如 果 这 些 数据 是 奇数 个 ,中 值 就 是 位 于 最 中 间 位 置 的 那 一 个 ;如 果 是 偶数 个 ， 
中 值 应 该 是 中 间 两 个 数 的 平均 值 。 用 此 方法 平滑 后 的 结果 如 下 : 

箱 1: 1350 1350 1350 1350 1350 1350 

箱 2: 2400 2400 2400 2400 

箱 3, 3250 3250 

箱 4: 4650 4650 4650 4650 

2. 聚 类 (clustering) 

去 除 噪声 数据 的 第 二 个 方法 是 使 用 聚 类 , 聚 类 是 将 物理 的 或 抽象 对 象 的 集合 分 组 为 由 
类 似 的 对 象 组 成 的 多 个 类 的 过 程 , 聚 类 的 结果 是 生成 一 组 由 数据 对 象 组 成 的 集合 , 称 为 簇 。 
同一 个 复 中 的 所 有 对 象 具有 相似 性 ,并 且 一 个 对 象 与 同 簇 中 任何 一 个 对 象 之 间 的 相似 性 一 
定 强 于 它 与 其 他 簇 中 任何 一 个 对 象 之 间 的 相似 性 。 用 聚 类 方法 去 除 噪声 ,就 是 要 找 出 那些 
落 在 簇 之 外 的 值 , 称 为 孤立 点 ,这 些 孤 立 点 被 视 为 噪声 。 而 对 同一 簇 中 的 对 象 用 相同 的 特征 
来 标识 。 

聚 类 方法 不 需要 任何 先 验 知识 ,直接 形成 簇 并 对 簇 进 行 描述 ,关于 聚 类 算法 ,本 书 的 后 
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续 章 节 将 详细 讲解 。 图 4-1 是 聚 类 的 一 个 例子 。 

图 中 共 形 成 了 3 个 聚 类 ,十 ”号 用 来 表示 聚 
类 的 质心 。 聚 类 的 质心 就 是 聚 类 中 的 平均 点 。 
不 在 任何 聚 类 中 的 点 称 为 孤立 点 ,就 是 要 去 掉 的 
噪声 数据 。 

3. 回归 (regression) 

回归 试图 发 现 相关 的 变量 之 间 的 变化 模 
式 , 通 过 使 数据 适合 一 个 函数 来 平滑 数据 , 即 
通过 建立 数学 模型 来 预测 下 一 个 数值 ,回归 方 
法 分 为 线性 回归 (linear regression) 和 非 线 性 回 
归 (nonlinear regression) 。 线 性 回归 又 称 简 单 
回归 ,是 最 简单 的 回归 形式 ,将 一 个 变量 看 作 另 一 个 变量 的 线性 函数 ,如 Y= 二 aX 十 5b, 其 
中 ,Y 称 为 因 变 量 ,X 称 为 自 变 量 ,a,b 称 为 回归 系数 ,可 用 最 小 二 乘法 求 得 ,使 得 实际 
数据 与 模型 之 间 误 差 为 最 小 。 对 于 随机 的 时 序数 据 可 用 分 段 线性 允 近 的 方法 划分 徊 
信 区 ,使 得 该 区 间 中 的 直线 模型 同 实际 数据 的 误差 在 规定 范围 内 。 只 要 用 户 指定 精度 
要 求 ,就 可 以 对 时 序数 据 建 模 ,得 到 一 系列 的 分 段 线性 模型 ,它们 由 回归 系数 ,2 及 分 
段 时 间 鹤 确定 。 

多 元 回归 是 线性 回归 的 扩展 ,也 称 复 回 归 , 有 两 个 或 两 个 以 上 自 变量 。 当 预测 涉及 多 个 
属性 字段 时 ,就 应 该 考虑 使 用 多 元 回归 ,如 2Z=aX 十 bY 十 c, 回 归 系 数 同样 也 可 以 使 用 最 小 
二 乘法 求解 。 

有 关 回 归 方 法 的 详细 介绍 参见 本 书 第 7.4 节 。 


4.2.4 不 平衡 数据 的 处 理 


不 平衡 数据 分 类 考虑 的 是 各 类 样本 数目 不 平衡 情况 下 的 分 类 学 习 问 题 。 以 二 分 类 为 
例 , 若 其 中 有 一 类 ( 正 类 、 多 数 类 ) 的 学 习 样 本 比 另 一 类 ( 负 类 、 少 数 类 ) 的 学 习 样 本 多 得 
多 ,那么 就 称 这 样 的 分 类 问题 为 不 平衡 分 类 问题 。 不 平衡 数据 在 实际 应 用 中 经 常 碰 到 ， 
如 欺诈 识别 、 入 侵 检 测 、 医 疗 诊断 以 及 文本 分 类 等 都 是 典型 的 不 平衡 数据 问题 。 传 统 的 
分 类 方法 主要 考虑 的 是 各 类 学 习 样 本 数量 大 致 均衡 的 情形 ,其 评价 标准 主要 是 基于 精度 
的 。 这 使 得 现 有 的 分 类 方法 往往 不 能 有 效 地 处 理 不 平衡 数据 ,尤其 是 数据 存在 严重 不 平 
衡 时 ( 正 / 负 类 学 习 样 本 数量 比 可 高 达 100 : 1、1000 : 1 甚至 10000 : 1)。 以 下 是 两 种 用 
于 处 理 不 平衡 数据 的 抽样 技术 ,基本 思想 是 通过 改变 训练 数据 的 分 布 来 消除 或 减 小 数据 
的 不 平衡 。 

(1) 过 抽样 (oversampling)。 处 理 不 平衡 数据 的 最 常用 方法 ,过 抽样 方法 通过 增加 少数 
类 样本 来 提高 少数 类 的 分 类 性 能 ,最 简单 的 办 法 是 复制 少数 类 样本 ,缺点 是 引入 了 额外 的 训 
练 数据 ,会 延长 构建 分 类 器 所 需要 的 时 间 , 没 有 给 少数 类 增加 任何 新 的 信息 ,而 且 可 能 会 导 
致 过 度 拟 合 。 

(2) 欠 抽 样 (undersampling)。 欠 抽样 方法 通过 减少 多 数 类 样本 来 提高 少数 类 的 分 类 
性 能 ,最 简单 的 方法 是 通过 随机 地 去 掉 一 些 多 数 类 样本 来 减 小 多 数 类 的 规模 ,缺点 是 会 丢失 
多 数 类 的 一 些 重要 信息 ,不 能 够 充分 利用 已 有 的 信息 。 


图 41 用 聚 类 方法 去 掉 噪 声 
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4.3 数据 集成 和 变换 


数据 挖掘 所 使 用 的 数据 通常 来 自 于 多 个 数据 存储 ,所 以 经 常 需要 把 多 个 数据 存储 合并 
起 来 ,这 个 过 程 称 为 数据 集成 。 而 为 了 使 数据 符合 算法 和 挖掘 目标 的 需要 ,如 数据 的 取 值 范 
围 ,粒度 等 ,还 需要 对 数据 进行 变换 。 本 节 讲 述 数据 集成 和 数据 变换 的 相关 内 容 。 


4.3.1 数据 集成 


数据 集成 是 将 多 文件 或 者 多 数据 库 中 的 异 构 数据 进行 合并 ,然后 存放 在 一 个 一 致 的 数 
据 存储 中 ,主要 工作 涉及 数据 的 冲突 问题 和 不 一 致 数据 的 处 理 问题 。 

用 于 数据 挖掘 的 数据 可 能 来 自 于 多 个 实际 应 用 系统 ,这 些 应 用 系统 可 能 是 异 构 的 ,还 可 
能 存在 属性 的 同名 不 同 义 、 同 义 不 同 名 、 单 位 不 统一 、 类 型 不 一 致 等 问题 ,在 数据 集成 的 过 程 
中 ,需要 发 现 和 统一 这 些 矛 盾 , 对 原始 数据 进行 重新 组 织 ,形成 挖掘 数据 。 

在 数据 集成 过 程 中 ,通常 需要 考虑 以 下 几 个 问题 。 

1. 模式 匹配 

通过 下 面 的 例子 来 说 明 模 式 匹配 问题 。 

表 4-1 和 表 4-2 是 两 张 原始 数据 表 , 分 别 存储 “客户 基 本 情况 ”和 ”客户 交易 数据 ,其 中 
“客户 基本 情况 ” 表 中 包含 客户 标志 、 客 户 收入 水 平 、 客 户 类 型 等 ,而 “客户 交易 数据 ? 表 中 包 
含 客户 标志 和 客户 交易 的 细节 ,如 时 间 、 商 品类 型 ,金额 等 。 


表 4-1 客户 基本 情况 表 表 4-2 客户 交易 数据 表 
属性 名 称 数据 类 型 说 明 属性 名 称 数据 类 型 说 明 

id Short int 客户 标志 customer_id int 客户 标志 
gender boolean 性 别 time date 交易 日 其 

. i goods string 商品 名 称 
birth data 0 a -eal 商品 价格 
ype boolean 是 否 会 员 count short int 商品 数量 
income Short int 月 收入 (元 ) total_price real 总 价格 


用 户 希 望 发 现 客户 背景 和 客户 购买 类 型 .购买力 的 关系 ,针对 数据 挖掘 的 需要 ,数据 预 
处 理 时 ,需要 把 这 两 张 表 集 成 为 一 个 挖掘 数据 源 。 

从 属性 说 明 中 可 以 看 出 ,两 张 表 中 的 数据 可 以 通过 “客户 标志 ”关联 起 来 ,但 是 如 表 中 所 
示 , 这 两 张 表 中 的 客户 标志 属性 名 称 不 同 ,所 以 在 集成 时 必须 通过 可 靠 的 手段 确定 id 和 
customer_id 是 同一 个 信息 ,通常 可 以 通过 和 用 户 讨论 的 方法 来 确定 ,因为 用 户 是 数据 的 使 
用 者 ,他 们 应 该 理解 属性 的 含义 。 如 果 数 据 库 可 以 提供 元 数据 , 则 元 数据 应 该 是 确定 属性 含 
义 的 最 好 依据 。 例 如 ,将 表 4-1 中 的 id 字段 名 改 为 customer_id。 

另外 ,属性 “客户 基本 情况 .id” 和 “客户 交易 数据 . customer_id” 的 类 型 也 不 相同 ,必须 统 
一 为 相同 的 数据 类 型 ,在 保证 不 丢失 信息 的 基础 上 ,应 该 选择 长 度 较 小 的 数据 类 型 , 当 数 据 
集 很 大 时 ,采用 较 短 的 数据 类 型 可 以 节省 系统 的 开销 。 

模式 匹配 问题 还 体现 在 自动 采集 数据 和 人 工 录 入 数据 的 差别 上 ,特别 是 和 时 间 相关 的 
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数据 上 ,自动 采集 数据 的 时 间 戳 较 密 ,而 人 工 录 入 数据 的 时 间 戳 较 稀 ;事务 处 理 的 数据 时 间 
是 非 等 间隔 的 ,而 数据 恢复 的 时 间 截 是 历史 的 。 这 些 不 同 的 模式 如 何 匹配 必须 要 有 元 数据 
加 以 说 明 ,才能 避免 数据 集成 时 带 来 的 模式 匹配 错误 。 

2. 数据 元 余 

宛 余 是 指 重复 存在 的 信息 ,数据 宛 余 的 存在 使 得 挖掘 程序 需要 对 相同 的 信息 进行 重复 
的 处 理 , 增 加 了 数据 挖掘 的 复杂 性 ,降低 挖掘 效率 。 最 明显 的 数据 宛 余 是 挖掘 数据 中 存在 两 
个 或 多 个 重复 的 记录 ,这 种 元 余 也 称 为 重复 。 

在 一 次 挖 据 中 ,有 多 个 属性 同时 对 挖掘 结果 产生 影响 ,而 对 同一 个 结果 有 影响 的 属性 ， 
它们 之 间 比 较 容 易 产 生 关 联 。 那 些 可 以 由 其 他 属性 推导 得 出 的 属性 ,被 认为 是 宛 余 属 性 。 

如 上 面 “ 客 户 交易 数据 ” 表 中 的 total_price 属性 , 它 实际 上 可 以 由 商品 价格 和 数量 两 个 
属性 计算 得 到 。 如 果 挖 掘 目 的 是 为 了 使 用 客户 消费 金额 信息 ,total_price 属性 对 挖掘 结果 
的 贡献 等 同 于 price 属性 和 count 属性 综合 作用 的 贡献 ,此 时 就 产生 了 数据 元 余 。 可 以 舍弃 
total_price 属性 ,保留 price 属性 和 count 属性 ,或 者 舍弃 price 属性 和 count 属性 ,而 保留 
total_price 属性 。 这 是 比较 明显 的 数据 宛 余 现象 ,通常 在 理解 属性 含义 的 基础 上 , 稍 加 观察 
就 可 以 发 现 , 有 时 这 种 元 余 也 发 生 在 不 同 的 表 之 间 。 

有 些 数 据 的 元 余 比 较 隐蔽 ,不 容易 直观 的 观察 出 来 。 如 果 和 希望 通过 发 现 属性 之 间 的 关 
联 程度 来 确定 是 否 发 生 了 宛 余 现象 ,可 以 使 用 相关 分 析 方 法 。 相 关 分 析 方 法 检测 一 个 属性 
蕴涵 另 一 个 属性 的 可 能 性 ,这 种 可 能 性 越 大 ,表明 属性 之 间 的 蕴涵 关系 越 明 显 ,可 以 去 掉 其 
中 的 一 个 属性 而 只 保留 男 一 个 属性 。 例 如 ,属性 X 和 Y 的 相关 性 可 以 由 下 式 来 度量 : 
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Txr = (n— 1)oxoy 二 
其 中 ,n 是 记录 个 数 ,X 和 Y 分 别 是 X 、Y 的 平均 值 ,vx 和 oy 是 X 和 YY 的 标准 差 。 
X Y 
Xx- 2*, 了- 之 cb 


>)(X; — XY | YD: 
i=1 i=1 下 
Ox = » or i (4-5) 
3. 数据 值 冲突 


在 多 个 数据 源 中 ,表示 同一 实体 的 属性 值 可 能 不 同 ,这 些 不 同 表现 在 数据 值 . 数 据 类 型 、 
数量 单位 或 编码 等 方面 ,例如 对 于 客户 的 收入 ,在 一 个 数据 源 中 可 能 表示 为 元 ,而 在 另 一 个 
数据 源 中 可 能 表示 为 千 元 ;另外 ,对 于 客户 类 型 (是 否 会 员 客户 ) ,一 个 数据 源 可 能 用 布尔 类 
型 数据 表示 ,而 另 一 数据 源 中 可 能 用 字符 类 型 表示 ,即使 是 用 同一 种 数据 类 型 ,由 于 不 同 的 
数据 库 管理 系统 对 数据 类 型 的 处 理 不 同 ,也 可 能 发 生 数据 值 冲突 。 


4.3.2 数据 变换 


通常 ,原始 数据 表 中 的 数据 不 适合 直接 用 于 数据 挖掘 ,需要 对 它们 进行 变换 之 后 才能 使 
用 ,数据 变换 涉及 多 个 方面 。 下 面 详细 介绍 数据 变换 的 平滑 .聚集 ,数据 概 化 、 规 范 化 和 属性 
构造 等 主要 内 容 。 
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1. 平滑 (smoothing) 

平滑 即 去 除 噪 声 ,还 可 以 将 连续 的 数据 离散 化 ,增加 粒度 。 如 采用 分 箱 或 聚 类 方法 时 ， 
实际 上 是 把 一 个 区 域内 的 值 用 同一 个 数值 表示 ,在 一 定 的 误差 允许 条 件 下 减少 了 属性 的 取 
值 个 数 , 进 而 减少 挖掘 算法 的 工作 量 。 数 据 平滑 的 方法 包括 分 箱 、 聚 类 、 回 归 等 ,具体 方法 已 
经 在 第 4. 2. 3 小 节 介绍 过 。 

2. 聚集 (clustering) 

聚集 即 对 数据 进行 汇总 ,例如 , 当 分 析 客 户 的 背景 情况 对 购买 能 力 的 影响 时 ,只 需要 关 
心 客户 消费 的 金额 ,并 不 需要 了 解 客户 购买 了 什么 商品 以 及 商品 的 数量 .价格 等 信息 ,对 于 
上 面 给 出 的 “客户 交易 数据 ” 表 ,需要 汇总 客户 每 次 交易 的 货物 总 价 ,进而 汇总 客户 所 有 交易 
的 总 金额 。 聚 集 常常 用 来 构造 数据 立方 体 。 

3. 数据 概 化 (generalization) 

通常 ,从 原始 数据 集 得 到 的 数据 包含 一 些 低层 概念 的 描述 ,而 在 数据 挖掘 中 有 时 并 不 需 
要 细 化 到 这 些 概 念 ,其 存在 会 使 数据 挖掘 过 程 花费 更 多 的 时 间 , 增 加 复杂 度 , 可 以 用 它 的 高 
层 概 念 蔡 换 , 也 就 是 数据 概 化 。 

例如 ,客户 的 出 生日 期 通常 是 保存 在 客户 背景 数据 存储 中 的 ,为 了 了解 不 同年 龄 段 客户 
的 消费 特点 ,只 对 客户 的 出 生年 代 ( 或 者 年 龄 阶段 ) 感 兴趣 ,并 不 需要 知道 客户 的 具体 出 生日 
期 ,所 以 “出 生日 期 "可 以 概 化 为 “出 生年 代 ”。 

4. 规范 化 (normalization) 

将 数据 按 比例 缩放 ,使 之 落 入 一 个 特定 的 区 域 , 如 0.0 一 1.0, 称 为 规范 化 ,或 者 标准 
化 。 规 范 化 对 基于 距离 的 聚 类 算法 和 神经 网 络 算法 是 非常 重要 的 ,可 以 保证 输入 值 在 一 
个 相对 小 的 范围 内 ,加 快 训练 速度 ;另外 不 会 发 生 因为 输入 值 的 范围 过 大 而 使 权重 过 大 
的 情况 。 

例如 ,在 应 用 聚 类 方法 时 ,数据 的 度量 单位 将 对 聚 类 的 结果 产生 很 大 的 影响 ,数据 的 
度量 单位 越 小 ,数值 的 取 值 就 越 大 ,对 聚 类 产生 的 影响 也 越 大 。 为 了 避免 这 种 情况 的 发 
生 ,一 个 办 法 就 是 对 数据 进行 规范 化 ,把 数据 规范 化 到 一 个 无 单位 的 特定 区 域 中 。 当 采 
用 神经 网 络 方法 时 ,需要 事先 告知 变量 的 变化 范围 (如 使 用 某 些 数据 挖掘 工具 时 ,要 求 提 
供 变 量 范围 ) ,神经 网 络 在 这 个 变化 范围 内 跟踪 数据 的 变化 ,学 习 规律 。 而 在 预测 时 ,一 
且 有 超出 该 范围 的 数据 ,神经 网 络 就 不 能 准确 地 跟踪 。 有 时 ,还 会 放大 数据 的 范围 以 增 
强 对 比 效果 。 

下 面 讨论 几 种 常用 的 数据 规范 化 方法 。 

(1) 最 小 一 最 大 规范 化 (MIN 一 MAX normalization) 。 假 设 数据 的 取 值 区 间 为 Lold_ 
min,old_max], 最 小 最 大 规范 化 即 把 这 个 区 间 映 射 到 新 的 取 值 区 间 [new_min,new_max]。 
对 于 任意 一 个 在 原来 区 间 中 的 变量 ,在 新 的 区 间 中 都 有 一 个 值 和 它 对 应 ,这 是 一 个 线性 变换 
过 程 ,变量 被 映射 到 新 区 间 的 值 通过 下 面 的 公式 计算 得 出 : 

/ 工 一 old_min 
old_max 一 old_min 


其 中 ,zx 是 属性 的 真实 值 ,z' 是 规范 化 后 的 值 。 
例如 ,客户 背景 数据 ? 表 中 的 客户 月 收入 income 属性 的 实际 值 范围 为 L430,8000], 需 
要 把 这 个 属性 值 规范 到 [0, 1] ,对 属性 值 3200 应 用 上 述 公 式 : 
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应 (new_max— new_min) 十 new_min (4-6) 


1 _ 3200 一 430 
8000 二 43041.0 0) 十 0 一 0.365918 


根据 精度 要 求 保 留 小 数 (假设 精度 要 求 0.0001) ,最 终 取 值 0. 3659 就 是 属性 值 3200 规 
范 后 的 值 。 

应 用 最 小 -最 大 规范 化 的 前 提 条 件 是 属性 的 取 值 范围 必须 已 知 ,如 果 取 值 超出 了 给 定 的 
范围 ,其 产生 的 规范 值 将 超出 约定 的 区 间 范 围 , 发 生 越 界 错误 。 

(2) 零 -均值 规范 化 (z-score normalization) 。 零 -均值 规范 化 即 根据 属性 值 的 平均 值 和 
标准 差 进行 规范 化 , 即 


a = (4-7) 
Ox 
其 中 ,X 为 所 有 样本 属性 值 的 平均 值 ,而 ox 为 样本 的 标准 差 。 当 属性 值 范 围 未 知 的 时 候 , 可 
以 使 用 此 方法 进行 规范 化 。 
例如 ,第 4.2. 3 小 节 中 的 客户 收入 数据 : 800 1000 1200 1500 1500 1800 2000 2300 2500 
2800 3000 3500 4000 4500 4800 5000, 采 用 零 - 均 值 规范 化 方法 进行 规范 化 : 


首先 , 求 样本 的 平均 值 X : 


样本 的 标准 差 ox 


D(z — XX) 
ox = ,| 三 = 1333.17 
| 


如 果 对 属性 值 3000 进行 零 -均值 规范 化 ,可 得 到 


1:_ ZX—X 3000 一 2637.5 
Ox 1333.17 


(3) 小 数 定 标 规范 化 (decimal scaling normalization)。 通 过 移动 属性 值 的 小 数 点 位 置 
进行 规范 化 。 此 方法 也 需要 在 属性 取 值 范围 已 知 的 条 件 下 使 用 ,小 数 点 移动 的 位 数 根据 属 
性 的 最 大 绝对 值 确定 ,具体 计算 公式 为 


0. 2719 


I 


= a 
T= (4-8) 


其 中 ,a 是 使 Max(Clz'|) 到 1 的 最 小 整数 。 
仍 以 第 4.2.3 小 节 中 的 客户 收入 数据 为 例 , 该 样本 数据 值 的 范围 为 800 一 5000, 最 大 绝 
对 值 为 5000, 为 了 使 得 
max( | j= max[ 


成 立 ,a 取 4, 规 范 化 后 最 大 值 5000 的 值 为 0. 5。 

5. 属性 构造 

为 了 提高 数据 挖掘 的 精度 或 者 使 数据 结构 更 容易 理解 ,有 时 候 会 根据 已 有 的 属性 构造 
新 的 属性 添加 到 挖掘 数据 集中 ,例如 在 客户 背景 数据 表 中 ,根据 客户 月 收入 ,构造 “收入 水 
平 ”属性 , 取 值 为 低 、 中 、 高 。 这 种 方法 对 分 类 算法 有 帮助 。 


5000 
如 |j<: 
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4.4 数据 归 约 


数据 归 约 用 于 从 源 数 据 集中 得 到 数据 集 的 归 约 表示 ,从 原始 数据 选择 出 来 的 数据 集 非 
常 大 ,甚至 使 得 在 其 上 进行 数据 挖掘 非常 困难 ,数据 归 约 的 目的 是 为 了 减少 原始 数据 量 , 在 
不 破坏 数据 完整 性 的 前 提 下 ,获得 比 原始 数据 小 得 多 的 挖掘 数据 集 ,该 数据 集 可 以 得 到 与 原 
始 数据 相同 的 挖掘 结果 。 


4.4.1 数据 归 约 的 方法 


有 多 种 方法 用 于 数据 归 约 ,本 节 着 重 介绍 以 下 几 种 方法 。 

(1) 数据 立方 体 聚 集 。 把 聚集 的 方法 用 于 数据 立方 体 。 

(2) 维 归 约 。 检 测 并 删除 不 相关 、 弱 相关 或 元 余 属性 。 

(3) 数据 压缩 。 选 择 正确 的 编码 压缩 数据 集 。 

(4) 数值 压缩 。 用 较 小 的 数值 表示 数据 ,或 采用 较 短 的 数据 单位 ,或 者 用 数据 模型 代表 
数据 。 

(5) 离散 化 和 概念 分 层 生 成 。 使 连续 的 数据 离散 化 (discretization) ,用 确定 的 有 限 个 区 
段 值 代替 原始 值 ;概念 分 层 是 指 用 较 高 层次 的 概念 替换 低层 次 的 概念 .以 此 来 减少 取 值 
个 数 。 


4.4.2 数据 立方 体 聚 集 


数据 立方 体 是 数据 的 多 维 建 模 和 表示 ,由 维和 事实 组 成 。 维 就 是 涉及 的 属性 ,而 事实 是 
一 个 具体 的 数据 。 通 常 认为 立方 体 是 一 个 3 维 的 几何 结构 ,实际 上 ,一 个 数据 立方 体 的 维 数 
可 以 是 nn 维 。 表 4-3 中 的 数据 表 “ 销 售 记录 ”中 ,记录 了 各 种 商品 在 全 国 各 个 省 份 的 销售 
情况 。 


表 4-3 “销售 记录 " 表 结构 


属性 名 称 数据 类 型 长 度 说 明 
goods_type String 10 商品 类 型 
year string 4 年 份 
province string 20 省 份 
sales real 6 销售 金额 (万 元 ) 


以 表 中 的 商品 类 型 .年份 和 省 份 作为 立方 体 的 维 ,销售 金额 为 事实 构造 的 3 维 数据 立方 
体 如 图 4-2 所 示 。 

如 果 挖 掘 时 感 兴趣 的 信息 是 年 度 总 销售 量 ,不 关心 每 个 省 份 的 销售 量 ,就 可 以 对 上 面 构 
造 的 立方 体 进 行 聚集 ,得 到 一 个 2 维 数据 立方 体 , 如 图 4-3 所 示 。 这 个 2 维 立 方 体 表 示 了 各 
类 商品 在 各 个 年 度 中 的 销售 金额 。 

如 果 需 要 ,还 可 以 把 2 维 数据 立方 体 进一步 聚集 成 1 维 。 


4.4.3 维 归 约 


在 数据 立方 体 的 概念 基础 上 ,把 属性 称 为 维 , 维 归 约 即 去 掉 不 相关 的 属性 ,减少 数据 挖 
。84 。 


天 津 | 1042 | 1500 | 5004 | 412 


河北 | 520 | 1140 | 2140 32 
省 


份 江苏 | 807 997 3154 324 


广东 | 1720 1702 5841 | 750 


体育 ”厨房 ”家装 ”文具 销售 金额 
商品 类 型 
图 42 销售 数据 立方 体 


2000 | 3600 | 3514 | 6520 | 1546 | | 销售 金额 


2001 | 3124 | 4020 | 8160 | 1472 
年 份 


2002 | 3870 | 4966 | 11200 | 1460 


2003 | 4089 | 5339 | 16139 | 1518 


体育 ”厨房 ”家装 文具 
商品 类 型 


图 43 聚集 后 的 销售 数据 立方 体 


掘 处 理 的 数据 量 。 

为 什么 要 进行 维 归 约 ? 因为 数据 中 含有 数 十 个 属性 ,而 在 一 次 挖掘 中 ,只 有 其 中 小 部 分 
属性 与 挖掘 任务 相关 ,前面 也 曾经 叙述 过 ,无 关 的 数据 会 减 慢 数据 挖掘 的 速度 ,甚至 产生 无 
用 的 规律 ,影响 结果 分 析 , 所 以 要 去 掉 这 些 属性 , 即 维 归 约 。 

那么 ,如 何 进 行 维 归 约 呢 ? 一 个 直接 的 办 法 就 是 人 工 选择 属性 ,但 是 如 果 涉 及 很 多 属性 
的 话 , 人 工 方法 效率 低 而 且 费 时 。 实 际 上 去 除 无 关 属 性 可 以 通过 选择 相关 属性 来 完成 ,找到 
一 个 最 小 属性 子 集 ,使 得 这 个 子 集 能 够 具有 和 原 数据 集 相 同 或 近似 的 分 布 。 

属性 子 集 选 择 的 基本 方法 包括 以 下 几 种 。 

1. 逐步 向 前 选择 

对 于 原 属性 集 S, 和 S 的 一 个 初始 为 空 的 子 集 S ,做 下 面 的 循环 操作 : 从 S 中 选择 最 好 
的 属性 (最 相关 的 属性 )a, 加 入 到 S 中 ,直到 满足 结束 条 件 。 结 束 条 件 可 以 有 多 种 ,如 满足 
属性 个 数 ,满足 相关 度 阔 值 等 。 

2. 逐步 向 后 删除 

在 原 属性 集 S 上 做 下 面 的 循环 操作 : 从 S 中 选择 最 坏 的 属性 (最 不 相关 的 属性 )8, 删 除 
这 个 属性 ,直到 满足 结束 条 件 。 结 束 条 件 与 向 前 选择 方法 相同 。 向 前 选择 和 向 后 删除 方法 
的 效果 应 该 是 相同 的 。 

3. 向 前 选择 和 向 后 删除 结合 

同时 使 用 向 前 选择 和 向 后 删除 方法 ,每 一 次 选择 一 个 最 好 的 属性 ,并 删除 一 个 最 坏 的 

时 8 


属性 。 

4. 判定 树 (dicision tree) 归 纳 

如 图 4-4 所 示 ,判定 树 像 是 一 棵 倒立 的 树 ,每 棵 判定 树 有 一 个 树 根 ,多 个 叶子 结 点 和 内 
部 结 点 。 


图 44 用 判定 数 进行 属性 归 约 


每 个 内 部 结 点 表示 在 一 个 属性 上 的 测试 ,每 个 分 支 代表 一 个 测试 结果 输出 ,从 根 到 每 个 
叶子 结 点 所 经 过 的 路 径 代表 该 叶子 结 点 满足 的 测试 条 件 , 每 个 叶子 结 点 代表 一 个 判定 类 。 

判定 树 算法 是 一 种 分 类 算法 ,在 每 一 个 测试 点 ,算法 从 属性 集中 选择 相关 性 最 强 的 属性 
作为 判定 条 件 ,根据 判定 结果 把 数据 划分 成 两 个 互 斥 的 类 ,算法 结束 时 ,所 有 内 部 结 点 代表 
的 属性 被 认为 是 相关 属性 而 选中 ,不 在 树 中 的 属性 被 认为 是 不 相关 的 ,应 该 删除 。 如 图 4-4 
中 ,经 过 判定 树 归 约 后 的 最 终 属性 集 为 (年 龄 ,性 别 , 月 收入 )。 

5. 基于 统计 分 析 的 归 约 

统计 分 析 中 的 一 些 算法 ,如 主 成 分 分 析 (principal component analysis,PCA) 逐步 回 归 
分 析 、 公 共 因 素 模 型 分 析 等 可 以 直接 用 于 维 归 约 。 统 计 分 析 算 法 的 特点 是 用 少量 的 特征 元 
组 去 描述 高 维 的 原始 知识 基 。 


4.4.4 数据 压缩 


数据 压缩 就 是 用 数据 编码 或 者 变换 ,得 到 原始 数据 的 压缩 表示 。 数 据 压 缩 可 以 减少 数 
据 存储 而 不 影响 数据 挖掘 的 结果 。 

数据 压缩 的 方法 分 为 两 类 : 无 损 压 缩 和 有 损 压 缩 。 无 损 压缩 如 基于 炉 的 编码 方法 ,有 
损 压 缩 如 主 成 分 分 析 法 ,是 将 分 散在 一 组 变量 上 的 信息 集中 到 某 几 个 综合 指标 ( 主 成 分 ) 上 
的 探索 性 统计 分 析 方 法 。 以 便利 用 主 成 分 描述 数据 集 内 部 结构 ,实际 上 也 起 着 数据 降 维 的 
作用 。 

主 成 分 分 析 法 具有 变 差 最 优 性 、 信 息 损失 最 小 性 、 相 关 最 优 性 和 回归 最 优 性 ,是 数据 压 
缩 和 多 元 降 维 的 重要 工具 ,其 主要 思想 是 要 从 个 属性 中 找到 个 最 能 代表 数据 特征 的 
维 正 交 向 量 (k<n) ,创建 一 个 由 具有 “最 主要 特征 ”的 向 量 组 成 的 集合 来 蔡 换 原 数 据 ,把 原 
数据 映射 到 一 个 较 小 的 空间 ,实现 数据 压缩 。 


4.4.5 数值 归 约 


数值 归 约 就 是 通过 某 种 方法 ,选择 较 小 的 数据 来 蔡 代 原 数据 ,减少 数据 量 。 常 用 的 方法 
有 直方 图 、. 聚 类 、 抽 样 `. 回 归 和 对 数 模型 等 ,其 中 一 些 技术 在 前 面 介绍 过 。 
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1. 直方 图 (histogram) 

直方 图 技术 是 一 种 常用 的 归 约 技术 , 它 使 用 分 箱 方法 对 数据 进行 近似 。 每 个 箱 代表 一 
个 区 域 范围 内 的 值 , 箱 的 宽度 代表 值 域 范围 , 箱 的 高 度 代表 这 个 范围 内 的 值 的 个 数 , 即 频 率 。 
每 个 箱 可 以 代表 一 个 属性 的 值 和 频率 , 称 为 一 维 直 方 图 ,也 可 以 代表 两 个 以 上 属性 的 值 和 频 
率 , 称 为 多 维 直 方 图 。 如 果 每 个 箱 只 表示 一 个 属性 值 , 则 称 为 单 桶 。 

箱 的 划分 已 经 在 第 4. 2. 2 小 节 中 介绍 过 ,下 面 是 一 个 用 直方 图 进行 归 约 的 例子 。 

40 组 客户 交易 数据 中 购买 某 商 品 的 数量 (经 过 排序 ) 为 : 1,1,1,1,2,2,2,2,2,4,4,4， 
5557555)55575575587878510,10510510,10510,12512; 412 到 ,15,155155155 15。 

用 单 桶 直方 图 可 以 清楚 的 表示 出 数据 的 分 布 情况 ,如 图 4-5 所 示 。 

根据 图 4-5, 数 据 可 以 被 表示 成 为 一 些 数 对 。 由 此 可 知 , 单 桶 直方 图 具有 一 定 的 归 约 效 
果 , 如 果 和 希望 更 进一步 的 归 约 数据 ,可 以 使 每 个 箱子 代表 一 个 值 域 范围 (采用 第 4. 2. 3 小 节 
介绍 过 的 分 箱 方法 分 箱 ) ,如 采用 等 宽 方 法 分 箱 ,把 值 域 区 间 划 分 为 1 一 5.6 一 10.11 一 15 三 
个 范围 ,得 到 图 4-6 所 示 的 归 约 结果 。 


频率 
频率 21 
18 上 
10 
15 上 
12 上 
6 a 
4 cL 
2 目 | 3 上 
0 一 0 二 
5 10 15 值 1 一 5 6 一 10 11 一 15 值 
图 4.5 购买 数据 的 单 桶 直方 图 图 46 购买 数据 的 等 宽 直方 图 ( 箱 宽 5 


2. 聚 类 

用 数据 的 聚 类 来 代表 实际 数据 。 当 数据 中 存在 聚 类 特征 时 , 即 数据 可 以 形成 有 限 个 聚 
类 时 ,此 方法 可 以 很 好 的 归 约 数据 。 聚 类 方法 的 基本 概念 已 经 在 第 4. 2. 3 小 节 中 介绍 过 ,有 具 
体 的 方法 将 在 后 续 章 节 中 介绍 。 

3. 抽样 (sampling) 

与 其 他 数据 归 约 方法 不 同 ,抽样 不 是 对 属性 进行 选择 或 者 删除 , 它 是 对 记录 进行 选取 ， 
即 用 较 小 的 数据 样本 集 表示 大 的 数据 集 。 如 果 一 个 数据 集 所 包含 的 记录 过 多 ,可 以 从 中 抽 
取 一 个 子 集 , 这 个 子 集 就 称 为 样本 ,样本 应 该 与 原 数据 集 具 有 相同 的 数据 分 布 。 样 本 的 大 小 
一 般 没有 特别 的 规定 ,要 赁 经 验 和 需要 确定 ,但 太 小 的 样本 因为 容易 包含 太 多 的 偏差 而 不 具 
有 代表 性 。 下 面 介绍 几 种 抽样 的 方法 。 

(1) 不 放 回 简单 随机 抽样 。 假 定数 据 集 D 共有 NN 条 记录 ,从 这 N 条 记录 中 抽取 出 
K 个 样本 。 不 放 回 抽样 即 每 次 抽取 一 条 记录 ,被 抽取 的 记录 不 再 放 回 原 数 据 集 D, 青 做 下 
一 次 抽样 。 不 放 回 简单 随机 抽样 对 每 个 记录 被 抽取 的 概率 都 是 相等 的 ,为 K/N。 

(2) 放 回 简单 随机 抽样 。 从 数据 集 D 的 N 条 记录 中 做 放 回 抽样 ,抽取 出 KK 个 样本 。 
放 回 抽样 即 每 次 抽取 出 一 条 记录 ,记录 该 记录 的 信息 ,然后 把 它 放 回 记 录 集 D, 再 做 下 一 次 
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抽样 。 在 放 回 抽样 中 ,一 条 记录 可 能 被 抽取 0 次 1 次 或 多 次 。 

(3) 聚 类 抽样 。 首 先 把 数据 集 DD 的 数据 放 入 M 个 聚 类 ,然后 从 每 个 聚 类 中 抽取 样本 。 

(4) 分 层 抽样 。 分 层 即 把 数据 集 D 划分 成 互 不 相交 的 部 分 ,每 一 部 分 称 为 一 层 。 分 层 
抽样 就 是 在 数据 集 的 每 个 层 上 作 简 单 随机 抽样 。 聚 类 抽样 和 分 层 抽 样 都 可 以 保持 样本 
的 特征 不 会 丢失 。 

如 图 4-7 所 示 的 数据 集 D, 包 含 了 顾客 的 年 龄 ,收入 和 会 员 等 级 3 个 属性 信息 。 

使 用 聚 类 或 者 分 层 方法 ,可 以 先 根据 age 字段 进行 聚 类 或 分 层 ,然后 再 在 每 个 聚 类 或 层 
中 抽取 ,这 样 就 可 以 保持 40 一 49 年 龄 段 之 间 的 信息 。 如 采用 按 年 龄 段 分 层 方法 ,把 数据 集 
分 为 20 一 30、30 一 40、40 一 50 和 50 岁 以 上 5 个 层 , 从 每 个 层 中 随机 抽取 样本 ,结果 见 图 4-8 
所 示 。 


age level age | income | level 
oe ea 21 | 800 0 21 | 800 0 
23 | 1600 | 0 ~ |26 | 180 | 1 
a a a 26 1800 1 
56 2300 0 28 4500 1 
34 4000 age | income | level age | income | level 
32 2100 2 34 4000 1 一 -一 34 4000 1 
2 
54 1800 2 32 2100 2 
50 3000 2 age | income | level age | income | level 
44 3500 2 44 3500 2 
26 1800 0 
e | income | level a income | level 
23 1600 1 a 2 
56 2300 0 50 3000 2 
28 a : 54 | 1800 | 2 
44 3500 2 50 3000 1 
图 47 示例 数据 集 图 48 用 户 数据 按 年 龄 分 层 抽样 


在 40 一 50 年 龄 段 中 只 有 一 条 记录 ,如 果 采 用 简单 随机 采样 ,该 记录 很 有 可 能 不 被 抽取 ， 
而 按照 年 龄 分 层 后 采样 , 则 一 定 可 以 被 抽取 ,保留 了 该 年 龄 段 的 信息 。 

4. 线性 回归 

以 上 介绍 的 几 种 抽样 方法 都 是 直接 从 数据 集中 抽取 实际 的 数据 ,形成 一 个 样本 集 ,样本 
集中 保存 的 是 样本 的 实际 数据 。 而 线性 回归 和 非 线性 回归 方法 用 数据 模型 近似 数据 ,它们 
并 不 保存 实际 数据 ,而 是 产生 一 个 数据 模型 ,只 保存 数据 模型 的 参数 ,所 以 也 称 为 参数 方法 。 
这 类 方法 只 对 数值 型 数据 有 效 。 

线性 回归 的 概念 已 经 在 第 4. 2. 3 小 节 介 绍 过 ,根据 数据 的 特征 ,可 以 确定 一 个 线性 模型 
来 近似 数据 ,并 根据 实际 数据 计算 出 回归 系数 ,形成 预测 模型 。 有 了 这 个 模型 ,就 可 以 只 保 
存 回 归 系 数 和 自 变量 ,在 需要 时 根据 它们 得 到 因 变 量 的 值 。 

5. 非 线 性 回归 

在 自 变量 与 因 变 量 之 间 的 关系 不 是 线性 关系 时 , 即 非 线 性 关系 时 ,要 采用 非 线 性 回归 方 
法 。 可 以 通过 一 定 的 函数 转换 ,将 非 线 性 关系 转换 为 线性 关系 ,从 而 采用 线性 回归 分 析 方 


法 ,来 解决 非 线 性 关系 。 
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一 元 回归 分 析 可 以 用 来 对 某 些 非 线性 关系 进行 估计 ,只 要 这 些 非 线性 关系 可 以 通过 取 
对 数 变 成 线性 关系 。 比 较 常 见 的 非 线 性 关系 以 及 对 应 的 线性 模型 有 以 下 两 种 。 
(1) y 二 e*” ,其 对 数 性 模型 为 
lIny=a+tbr (4-9) 
可 以 用 最 小 二 乘法 分 两 步 对 上 述 模 型 进行 估计 : 
先 通过 运行 y 二 a 十 bx 对 a,b 进行 估计 , 式 中 y= 二 ln y。 
然后 用 式 > 一 e* 进行 预测 。 
(2) y 一 a ,其 对 数 线性 模型 为 
lgy= lga+t+zxlgb (4-10) 
y =A+Br (4-11) 
其 中 ,y 二 lg y,A=lg a,B 二 lg 5, 用 最 小 二 乘法 对 上 述 模 型 进行 估计 ,计算 出 参数 A 和 B,y 
可 以 通过 式 y 二 10^+“ 计 算 。 


4.4.6 离散 化 与 概念 分 层 生 成 


为 了 适应 算法 或 者 存储 的 需要 ,有 时 需 用 有 限 数量 的 离散 数据 替代 连续 数据 。 通 常 采 
用 的 方法 是 把 数据 划分 区 间 ,每 个 区 间 中 的 数据 用 一 个 值 来 代替 。 分 箱 .直方 图 . 聚 类 等 都 
是 离散 化 技术 ,如 果 在 数据 集 上 递归 地 使 用 某 种 离散 化 技术 ,就 形成 了 数据 集 的 概念 分 层 。 
如 对 数据 集 D 递归 的 使 用 等 宽 分 箱 技术 ,形成 的 概念 分 层 如 图 4-9 所 示 。 
数据 集 D 一 (0,2,2,5,5,5,10,10,11,14,14,14,18,18,18,26,26,26,26,26， 
35,35,35,35,38,38,39,42,42,42,43,43,55,55,55,55,58,60， 
66 ,66,66,69,72,72,73,75,75,75) 


[40，60) [60，80) 


PCCPC 


10, | 2, 5, 5, 5, {26, 26, 26, {42，42，42， {60, 66, 66, 分 
10, 10} 26, 26} 43，43} 66，69} 箱 
后 
的 
{11, 14 4 i 18， {35, 35, 35, 35, 38, {555 $5» 5， {72，72，73，75， 数 
38, 39} 55, 58} 75, 75} 据 
集 
了 了 离散 化 
42 56 65 74 (平均 值 》 


图 49 分 箱 产 生 的 概念 分 层 和 离散 化 
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图 4-9 中 , 树 状 结构 有 4 个 层次 的 结 点 , 根 结 点 表示 原始 数据 集合 ,其 他 每 一 层 结 点 共 
同 表示 一 个 概念 分 层 , 它 们 具有 同一 个 概念 级 别 ,而 不 论处 于 哪 一 个 概念 层 中 ,每 个 结 点 都 
代表 一 个 符合 一 定 条 件 的 数据 集合 。 图 中 给 出 了 所 有 叶子 结 点 的 数据 集合 以 及 对 它们 离散 
化 后 的 值 ,读者 可 以 试 着 写 出 其 他 各 层 的 数据 集合 以 及 离散 化 结果 。 

在 具体 应 用 中 ,可 以 根据 需要 确定 分 层 终 止 条 件 , 如 预先 设 定 层 数 ,或 者 设 定 达 到 的 最 
小 区 间 范 围 。 由 这 个 例子 可 以 看 出 ,概念 分 层 可 以 用 作 数 据 离 散 化 的 方法 ,同时 它 也 可 以 用 
作 数 据 归 约 的 方法 ,下 面 较 详 细 地 介绍 离散 化 与 概念 分 层 的 方法 。 

1. 数值 数据 的 离散 化 与 概念 分 层 生 成 

数值 数据 的 概念 分 层 可 以 通过 数据 分 析 自 动产 生 ,这些 方法 包括 前 面 介绍 过 的 分 箱 、 直 
方 图 . 聚 类 ,基于 恼 的 离散 化 (利用 焙 来 递归 地 划分 时 间 间 隔 , 直 到 得 到 的 值 满足 一 定 精度 要 
求 。 那 么 可 以 用 划分 间隔 和 对 应 的 炉 值 来 重新 构建 原来 的 数据 集 ) 等 。 它 们 能 够 无 干预 地 
完成 对 属性 的 概念 分 层 , 但 是 这 些 方 法 划分 出 来 的 层 并 不 考虑 边界 值 是 否 直观 或 自然 。 通 
常 , 用 户 更 希望 分 层 具 有 自然 的 ,易于 记忆 的 符合 人 类 思维 习惯 的 边界 。 例 如 人 们 希望 看 
到 [20,30], 而 不 愿意 看 到 [23. 333,36. 97] 之 类 的 分 层 。 

下 面 介 绍 一 种 通过 自然 划分 分 段 的 方法 进行 概念 分 层 的 过 程 。 该 方法 应 用 3-4-5 规 
则 ,递归 地 将 给 定数 据 区 域 划分 为 3.4 或 5 个 等 宽 的 区 间 ,3-4-5 规则 的 具体 描述 如 下 。 

(1) 如 果 待 划分 的 区 间 在 最 高 位 上 包含 3.6、7 或 9 个 不 同 的 值 , 则 将 该 区 间 划 分 成 3 
个 区 间 。 其 中 ,如 果 是 3.6 或 9, 则 划分 成 等 宽 的 3 个 区 间 ,如果 是 7, 则 按 2-3-2 划分 成 3 个 
区 间 。 

(2) 如 果 待 划分 区 间 最 高 位 上 包含 2、4 或 8 个 不 同 的 值 , 则 把 它 划分 成 4 个 等 宽 的 
区 间 。 

(3) 如 果 待 划分 区 间 最 高 位 上 包含 1.5 或 10 个 不 同 的 值 , 则 把 它 划 分 成 5 个 等 宽 的 
区 间 。 

在 每 个 区 间 上 递归 地 应 用 3-4-5 规则 ,生成 数据 的 概念 分 层 , 直 到 满足 预先 设 定 的 终止 
条 件 。 

图 4-10 表示 的 是 一 个 用 3-4-5 规则 构造 概念 分 层 的 例子 。 数 据 集 D 是 某 公司 每 月 利 
润 增长 数据 ,数据 单位 为 千 元 , 取 值 范围 在 一 13 一 32 之 间 , 对 最 大 最 小 值 在 10( 千 元 ) 上 取 
整 ,得 到 一 个 区 间 ( 一 20.40) ,这 个 区 间 就 是 应 用 3-4-5 规则 的 区 间 。 


最 高 位 有 6 个 不 同 的 值 ， 
分 成 3 个 等 宽 的 区 域 


最 高 位 有 2 个 不 同 的 值 ， 
分 成 4 个 等 宽 的 区 域 


图 410 345 规 则 产生 的 概念 分 层 
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考察 区 间 [ 一 20,40) ,最 高 位 有 6 个 不 同 的 取 值 : 一 2、 一 1.0、1、2、3, 根 据 3-4-5 规则 ,把 
数据 集 DD 划分 为 3 个 等 宽 的 区 间 D1 、D2 和 D3 , 取 值 区 间 分 别 为 [一 20,0)、[0,20) 和 


[20,40)。 这 3 个 等 宽 的 区 间 最 高 位 分 别 包含 
两 个 不 同 的 取 值 一 2、 一 1,0、1 和 2、3, 所 以 划分 
成 4 个 等 宽 的 区 间 ,D1 划分 为 Dl1 .D12 、D13 和 
和 D14 ,D2 和 D3 也 相同 。 5% 95% 
如 果 数 据 集 DD 的 分 布 曲线 旦 现 图 4-11 所 图 411 数据 集 D 的 分 布 曲线 
示 的 情况 ,区 间 两 端的 值 所 占 的 比例 非常 少 , 可 
以 根据 情况 设置 一 个 置信 区 间 ( 如 5%~95%) ,以 这 两 个 点 上 的 值 作为 初始 划分 的 区 间 ,如 


[一 9,28] ,同样 在 10( 千 元 ) 上 取 整 ,得 到 区 间 [ 一 10,30], 则 第 一 层 划分 情况 如 图 4-12 所 示 。 


最 高 位 有 4 个 不 同 的 值 ,分 成 4 个 等 宽 的 


D1 D2 D3 D4 
4 二 在 置信 区 间 [5%， 95% ] 上 的 第 一 层 划 分 


可 以 看 到 ,由 于 设置 了 置信 区 间 [5%,95%] ,实际 上 集合 D1 的 左边 界 和 D4 的 右边 界 
分 别 是 一 10 和 30, 不 包含 集合 D 的 实际 边界 一 13 和 32, 所 以 应 该 在 两 端 补充 两 个 集合 表 
示 缺 失 的 数据 , 如 图 4-13 所 示 。 


D2 D3 D4 D5 


图 413 对 缺失 区 间 补 充 的 划分 


对 区 间 D0 一 D5 应 用 3-4-5 规则 ,得 到 的 分 层 如 图 4-14 所 示 。 


图 414 对 图 413 进 一 步 分 层 


wr 才 下 沪 


可 以 递归 地 划分 下 去 ,直到 满足 一 定 的 要 求 , 如 区 间 大 小 达到 预定 的 阔 值 。 

2. 分 类 数据 的 概念 分 层 生成 

分 类 数据 是 指 分 类 属性 值 所 包含 的 数据 (可 以 是 数值 型 .字符 型 或 字符 串 等 ) ,所 谓 分 类 
属性 ,就 是 指 那些 具有 有 限 个 取 值 的 属性 ,如 商品 类 型 店铺 的 位 置 和 客户 类 型 等 ,这 些 数据 
之 间 没 有 大 小 关系 ,所 以 不 能 采用 数值 数据 的 分 层 方法 。 下 面 介绍 几 种 典型 的 用 于 分 类 数 


据 概念 分 层 的 方法 。 和 
(1) 由 用 户 或 专家 在 模式 级 显 式 地 说 明 数 据 的 包含 关 > 


系 。 如 果 分 类 属性 之 间 存 在 部 分 包含 或 者 完全 包含 的 关 Cyear > mo 
系 ,可 以 由 用 户 或 者 领域 专家 说 明 属性 之 间 的 包含 关系 ， 
根据 这 个 包含 关系 形成 概念 分 层 。 如 ,在 属性 组 : year， Cmonh > Cen days 
month,day 之 间 就 存在 完全 包含 关系 : dayC monthC Cay > day 
year, 可 以 用 这 个 关系 定义 它们 的 概念 分 层 ,如 图 4-15 (a) (a) (b) 

所 示 。 图 4 鸽 对 属性 组 : year, month， 

(2) 通过 显 式 数据 分 组 说 明 分 层 结构 的 一 部 分 。 在 产 day 的 概念 分 层 
生 包 含 关系 的 属性 之 间 , 有 的 属性 取 值 数目 较 少 ,而 有 一 
些 属性 包含 大 量 不 同 的 离散 值 , 对 取 值 过 多 的 属性 ,通过 枚 举 值 逐个 定义 概念 分 层 是 不 可 能 
的 ,而 对 于 值 较 少 的 属性 ,可 以 进行 手工 的 分 组 。 如 把 日 期 值 {1,2,3,4,5,6,7,8,9,10) 定 义 
为 < 上 各 "1171251351415516517518519520} 定 义 为 < 中 徊 "(215225235245255265273285 
29,30} 定 义 为 “下 旬 ”, 就 形成 图 4-15(b) 所 示 的 概念 分 层 。 

(3) 根据 属性 值 的 个 数 自 动产 生 分 层 。 只 给 出 属性 组 ,不 定义 属性 的 包含 关系 ,根据 属 
性 值 的 个 数 自 动产 生 分 层 。 此 方法 的 根据 是 : 与 定义 在 较 低 概念 层 的 属性 相 比 ,定义 在 较 
高 概念 层 的 属性 通常 具有 较 少数 量 的 不 同 的 值 ,把 具有 最 少 不 同 值 的 属性 放 在 最 高 层 ,属性 
的 不 同 值 数 目 越 多 ,所 处 的 概念 层 越 低 。 并 不 是 所 有 的 属性 之 间 的 关系 都 可 以 这 样 确定 ,也 
有 特殊 的 情况 ,如 上 面 的 例子 中 ,如 果 属 性 year 的 不 同 取 值 个 数 超过 12, 则 会 产生 类 似 : 
dayCyearCmonth 的 概念 分 层 , 所 以 有 时 候 需 要 对 自动 产生 的 分 层 进行 手工 调整 。 

(4) 根据 数据 语义 产生 分 层 。 有 时 候 , 由 于 用 户 对 数据 结构 认识 的 误差 ,或 者 操作 上 的 
失误 ,只 提供 了 相关 属性 组 的 部 分 属性 ,不 能 形成 一 个 完整 的 分 层 结 构 , 此 时 就 要 借助 于 数 
据 语 义 , 即 在 数据 模式 中 加 入 属性 的 说 明 ,这些 说 明 把 属性 组 联系 在 一 起 。 当 一 个 属性 被 增 
加 进 属性 组 时 ,依靠 数据 语义 可 以 把 所 有 相关 的 属性 增加 进来 。 


小 结 


数据 预 处 理 是 数据 挖掘 中 非常 重要 的 一 个 环节 ,挖掘 使 用 的 数据 来 源 于 实际 操作 数据 
源 ,这 些 数 据 源 可 能 是 多 个 数据 库 , 其 结构 和 规则 可 能 是 不 同 的 ,这 将 导致 原始 数据 非常 的 
杂乱 ,不 可 用 。 即 使 在 同一 个 数据 库 中 ,也 可 能 存在 重复 ,不 完整 ,大 量 的 空缺 值 和 不 一 致 现 
象 。 预 处 理 的 目的 就 是 为 数据 挖掘 提供 干净 一 致 的 数据 ,本 节 从 数据 清洗 、 数 据 集 成 ,数据 
变换 和 数据 归 约 几 个 方面 介绍 了 预 处 理 的 方法 。 数 据 清洗 涉及 属性 选择 与 处 理 、 空 缺 值 处 
理 、 噪 声 数 据 处 理 和 不 平衡 数据 处 理 ; 数 据 集成 涉及 在 集成 过 程 中 的 模式 匹配 问题 数据 宛 
余 问题 和 数值 冲突 等 问题 的 解决 方法 ;数据 变换 讨论 了 数据 的 平滑 、 聚 集 、 概 化 和 规范 化 方 
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法 ;数据 规约 主要 介绍 了 数据 立方 体 聚 集 、 维 归 约 数据 压缩 .数值 压缩 .离散 化 和 概念 分 层 
生成 及 其 具体 的 方法 。 通 过 学 习 本 章 内 容 , 可 以 了 解数 据 预 处 理 的 重要 性 ,了 解 原始 数据 中 
存在 的 问题 ,掌握 各 种 预 处 理 方法 。 


习题 4 


.列举 实际 业务 操作 数据 中 存在 的 问题 以 及 这 些 问 题 产生 的 原因 。 
. 数据 预 处 理 涉及 哪些 方法 ,这 些 方 法 分 别 用 于 解决 数据 中 的 哪 方 面 的 问题 ? 
. 说 明 属 性 选取 的 原则 。 
. 说 明 填补 空缺 值 的 方法 和 这 些 方法 的 优 缺 点 。 
. 下 面 是 一 个 超市 某 种 商品 连续 24 个 月 的 销售 数据 ( 百 元 ): 
215165195 列 27523 22214520517516520523，22, 18,2472632532052605235215165517 
使 用 统一 权重 、 统 一 区 间 、 和 自 定义 区 间 方 法 对 数据 分 箱 , 做 出 各 种 分 箱 方法 得 到 的 直 
方 图 。 
6. 对 上 题 中 分 箱 后 的 数据 采用 平均 值 .边界 值 或 中 值 等 方法 进行 平滑 。 
7. 如 果 挖 掘 算法 需要 把 第 5 题 中 的 商品 销售 数据 规范 化 到 区 间 [0,1] 上 ,采用 最 小 一 
最 大 规范 化 方法 ,请 写 出 规范 化 后 的 结果 。 
8. 试 采用 一 种 分 箱 方法 ,对 以 下 某 种 商品 连续 30 周 的 销售 利润 数据 进行 归 约 ( 千 元 ): 


全 


2 007 4;2,530 08145 4653219375546,3 .471835654,2:3 
9. 解释 本 章 中 提 到 的 几 种 数据 抽样 方法 。 
10. 用 等 宽 分 箱 技术 对 排序 后 的 数据 集 D=(0,0,2,2,2,4,8,8,8,12,12,12,12,15， 


15,16,16,16,16,21,21,21,25,25,25,25,25,28,28,29,34,34,34,34,37,37,44,44,44,58， 
58,58,58,58,63,63,66,66,66,69,74,74,74,78,78) 进 行 离散 化 ,使 得 每 箱 宽度 不 大 于 5， 
形成 概念 分 层 。 

11. 对 连续 数值 型 数据 集 D, 取 值 范围 为 0 一 70, 试 用 3-4-5 规则 对 其 进行 离散 化 。 
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第 5 音 关联 规则 方法 


数据 挖掘 中 许多 常用 的 传统 模式 发 现 技术 ,如 决策 树 、 分 类 规则 和 聚 类 技术 都 属于 机 器 
学 习 领 域 的 研究 成 果 。 而 关联 规则 挖掘 不 同 ,该 技术 的 出 现 极 大 扩展 了 数据 挖掘 的 研究 ,有 
着 巨大 的 影响 ,成 为 数据 挖掘 研究 的 一 个 重要 分 支 。 由 于 关联 规则 可 以 有 效 地 发 现 数 据 之 
间 的 重要 关联 关系 ,并 且 规 则 的 表达 形式 简洁 ,易于 解释 和 理解 ,从 大 型 数据 库 中 挖掘 关联 
规则 的 问题 已 经 成 为 近年 来 数据 挖掘 研究 领域 中 的 一 个 热点 。 

采用 关联 规则 挖掘 类 似 于 “90% 的 顾客 在 买 面包 和 黄油 的 同时 也 会 买 牛 奶 ” 这 样 的 知 
识 ,可 以 帮助 决策 者 确定 市 场 经 营 策略 。 关 联 规则 在 很 多 其 他 场合 也 有 成 功 的 应 用 。 例 如 ， 
在 商业 销售 行为 中 ,关联 规则 可 用 于 确定 交叉 销售 策略 ,以 得 到 更 高 的 收入 ;在 保险 业务 方 
面 ,如 果 出 现 了 不 常见 的 索赔 要 求 组 合 , 则 可 能 为 欺诈 ,需要 作 进一步 的 调查 ;在 医疗 方面 ， 
可 以 发 现 某 一 类 患者 的 共同 特征 ,或 者 可 找 出 可 能 的 治疗 组 合 及 观察 各 种 组 合 的 治疗 效果 ; 
在 银行 方面 ,对 顾客 进行 分 析 , 可 以 推荐 感 兴趣 的 服务 ,等 等 。 由 于 这 些 实际 应 用 目标 的 差 
异 ,在 关联 规则 大 的 理论 框架 下 有 许多 面向 实际 应 用 目标 的 理论 和 方法 等 待 探索 和 创新 。 


5.1 关联 规则 的 概念 和 分 类 


关联 规则 (association rules) 概 念 产生 于 1993 年 ,其 最 初 的 目的 是 为 了 寻找 大 量 商务 数 
据 库 中 项 集 之 间 的 有 趣 联 系 , 由 Agrawal .Imielinski 和 Swami 提出 。 


5.1.1 关联 规则 的 概念 


关联 规则 用 来 发 现在 同一 事件 中 出 现 的 不 同 项 的 相关 性 , 即 找 出 事务 中 频繁 发 生 的 项 
或 属性 的 所 有 子 集 ,以 及 项 目 之 间 的 相互 关联 性 。 为 了 方便 描述 ,首先 说 明 以 下 符号 。 

D: 事务 数据 库 (database); 

I: 项 目 (item) 集 合 ,T 三 (i,iso，… si) ,其 中 , 记 ,is，…,i。 为 数据 库 中 的 项 目 ; 

T: 数据 库 中 的 事务 (transaction); 

X: 项 集 (itemset) , 即 项 目的 集合 ; 

& 项 集 : 包含 个 项 目的 集合 ; 

支持 度 s(X): 项 集 X 的 支持 度 ,表示 数据 库 中 包含 项 集 X 的 交易 数据 的 条 数 ; 

频繁 项 集 , 也 称 为 频繁 模式 , 指 支持 度 大 于 用 户 指定 的 最 小 支持 度 的 项 集 ; 

频繁 -项 集 (k frequent itemset) : 长 度 为 k 的 频繁 项 集 。 

在 以 上 符号 基础 上 ,对 关联 规则 的 形式 化 描述 如 下 : 

设 项 目 集合 1 二 {i4,is,…,i) 由 mm 个 不 同 的 项 目 组 成 ,D 为 事务 数据 库 ,D 中 的 每 一 个 事 
务工 是 工 的 一 个 子 集 , 即 TCI。 一 个 项 目的 集合 称 为 项 集 ,包含 k 个 项 目的 集合 称 为 项 集 ， 
项 集 X 的 支持 度 , 记 为 ;(X) ,表示 包含 该 项 集 的 交易 数据 的 条 数 , 如 果 一 个 项 集 的 支持 度 大 于 
用 户 指 定 的 最 小 支持 度 (min_sup) , 则 称 它 是 频繁 的 ,长度 为 & 的 频繁 项 集 称 为 频繁 上 项 集 ,一 

C7 


个 频繁 项 集 也 称 为 频繁 模式 。 关 联 规则 是 形 如 A 志 B 的 蕴涵 式 , 其 中 ACI,BCI, 并 且 AN 
B= 多 .规则 A 过 B 的 支持 度 ;(A 志 >B) 定 义 为 D 中 包含 AUB 的 事务 所 占 的 百分比 ,表示 项 集 
AUB 在 DD 中 出 现 的 概率 ,s(A=>B)=|{T:AUBST}|/|D|，。 

规则 A 志 B 的 置信 和 度 c(min_con) 定 义 为 D 中 包含 项 集 A UB 的 事务 数 和 包含 项 集 A 
的 事务 数 的 比值 ,表示 当 项 集 A 出 现时 ,项 集 B 出 现 的 概率 ,c(A 二 B) 二 s(AUB)/s(A), 置 
信 度 大 于 用 户 指定 的 最 小 置信 度 值 的 规则 是 可 信 的 。 

关联 规则 挖掘 的 任务 是 找到 事务 数据 库 D 中 支持 度 和 置信 度 分 别 满足 用 户 指定 的 最 
小 支持 度 min_sup 和 最 小 置信 和 度 min_con 的 规则 A 二 B。 

关联 规则 挖掘 问题 分 为 两 个 子 问题 (或 者 说 是 两 个 步骤 ) : 

(1) 找 出 D 中 所 有 的 频繁 项 集 ; 

(2) 从 频繁 项 集中 产生 关联 规则 。 

其 中 ,第 一 个 子 问 题 所 需要 的 计算 量 和 磁盘 1/O 量 都 较 大 ,几乎 所 有 的 关联 规则 挖掘 
算法 都 是 针对 第 一 个 子 问 题 提 出 的 。 


5.1.2 关联 规则 的 分 类 


可 以 从 不 同 角度 对 关联 规则 进行 分 类 ,下 面 介绍 几 种 最 常见 的 分 类 方法 。 

1. 基于 规则 中 处 理 的 变量 类 别 分 类 

基于 关联 规则 中 处 理 的 变量 类 别 , 可 以 分 为 布尔 型 和 数值 型 两 种 。 

布尔 型 关联 规则 处 理 的 值 都 是 离散 的 、 种 类 化 的 ,关联 规则 显示 这 些 变量 之 间 的 关系 ; 
数值 型 关联 规则 是 对 数值 型 字段 进行 处 理 , 将 其 进行 动态 的 分 割 ,或 者 直接 对 原始 的 数据 进 
行 处 理 , 当 然 数值 型 关联 规则 中 也 可 以 包含 种 类 变量 。 

例如 : 性 别 =" 男 "三 二 职业 三 "网络 工 程 师 ", 是 布尔 型 关联 规则 ;性 别 =" 男 "二 二 
avg( 收 入 ) 三 3500, 其 中 的 收入 项 是 数值 类 型 ,所 以 是 一 个 数值 型 关联 规则 。 

2. 基于 规则 中 数据 的 抽象 层次 分 类 

基于 规则 中 数据 的 抽象 层次 分 类 ,可 以 分 为 单 层 关联 规则 和 多 层 关联 规则 。 

在 单 层 的 关联 规则 中 ,所 有 的 变量 都 不 考虑 现实 数据 具有 多 个 不 同 层次 的 特点 ;在 多 层 
的 关联 规则 中 ,考虑 数据 的 多 层 性 。 

例如 : Sony 数码 照相 机 三 二 Sony 彩色 喷 墨 打印 机 ,是 一 个 细节 数据 上 的 单 层 关联 规 
则 ;数码 照相 机 三 二 Sony 彩色 喷 黑 打印 机 ,是 一 个 较 高 层次 和 细节 层次 之 间 的 多 层 关联 
规则 。 

3. 基于 规则 中 涉及 的 数据 维 数 分 类 

基于 规则 中 涉及 的 数据 维 数 分 类 ,关联 规则 可 以 分 为 单 维和 多 维 。 

在 单 维 关联 规则 中 ,只 涉及 数据 的 一 个 维 ,如 用 户 购 买 的 商品 ;多 维 的 关联 规则 中 ,要 处 
理 的 数据 将 会 涉及 多 个 维 。 或 者 说 , 单 维 关联 规则 是 处 理 单个 属性 中 的 某 些 关系 ;多 维 关联 
规则 是 处 理 多 个 属性 之 间 的 某 些 关 系 。 

例如 : 啤酒 = 二 尿布 ,这 条 规则 只 涉及 用 户 购买 的 商品 ;性 别 =" 男 "= 二 职业 =" 网 络 
工程 师 " ,这 条 规则 就 涉及 两 个 字段 的 信息 ,是 一 条 两 维 关联 规则 。 

4. 基于 模式 与 规则 之 间 的 相互 关系 分 类 

基于 模式 与 规则 之 间 的 相互 关系 分 类 ,可 以 分 为 完全 频繁 模式 挖掘 、 最 大 频繁 模式 挖掘 
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和 闭合 频繁 模式 挖掘 。 
由 于 应 用 环境 和 目的 不 同 ,在 以 上 多 种 关联 规则 挖掘 方法 中 ,一 维 单 层 布尔 型 关联 规则 
挖掘 方法 是 其 他 方法 的 基础 。 


5.2 Apriori 算法 


已 有 的 一 维 单 层 布尔 型 关联 规则 频繁 项 集 发 现 方法 可 以 分 为 产生 候选 项 集 和 不 产生 候 
选项 集 两 类 。 产 生 候 选项 集 的 方法 最 初 由 Agrawal 等 人 于 1994 年 提出 ,这 就 是 著名 的 
Apriori 算法 ,这 个 算法 成 为 后 来 绝 大 多 数 关联 规则 挖掘 算法 的 基础 。 而 不 产生 频繁 项 集 的 
挖掘 方法 最 典型 的 是 FP-Grwoth 方法 。 

Apriori 命名 的 由 来 是 因为 算法 使 用 了 频繁 项 集 性 质 的 先 验 知识 , 即 Apriori 性 质 。 
Apriori 性 质 的 内 容 是 : 频繁 项 集 的 所 有 非 空子 集 也 都 必须 是 频繁 的 。 这 个 性 质 被 用 于 减 
少 候选 频繁 项 集 的 数量 。Apriori 算法 将 发 现 关 联 规则 的 过 程 分 为 两 步 : 第 1 步 是 通过 和 迭 
代 , 检 索 出 源 数据 中 的 所 有 频繁 项 集 , 即 支持 度 不 低 于 用 户 设 定 阔 值 的 项 集 ; 第 2 步 是 利用 
第 1 步 中 检索 出 的 频繁 项 集 构 造 出 满足 用 户 最 小 置信 度 的 规则 。 


5.2.1 产生 频繁 项 集 


Apriori 算法 产生 频繁 项 集 采 用 迄 代 方法 实现 。 每 一 次 兴 代 包括 两 个 步骤 : 产生 候选 
项 集 ; 由 候选 项 集中 产生 频繁 项 集 。 称 第 & 次 迭代 产生 的 候选 项 集 为 候选 项 集 , 记 为 C， 
第 次 迭代 产生 的 频繁 项 集 为 频繁 & 项 集 , 记 为 L;。 第 k 次 迭代 产生 的 项 集 长 度 为 k。 
产生 频繁 项 集 的 过 程 可 以 用 下 面 的 算法 表示 : 


LI= {frequent items}; 
for(k=1;I !=(O; k++) do 
begin 
Ce1=apriori- gen (Ix); 
for each transaction tE T do 
begin 
C=subset (C1,t); 
for each candidate cE C. do 
Cc.support++; 
end 
Js {CE Ceri 1c.support> =min sup} 
end 


returnU xLr? 


Apriori 算法 的 计算 过 程 如 下 : 
1. 求 频繁 1 项 集 工 ， 
以 项 目 集合 工作 为 候选 1 项 集 C ,扫描 数据 库 一 次 ,统计 各 个 项 目的 出 现 次 数 , 根 据 设 
定 的 最 小 支持 度 得 出 频繁 1 项 集 Di 
2. 求 频繁 上 十 1 项 集 Li4+1( 即 执行 apriori-gen (Li)) 
第 1 步 ,对 前 & 一 1 个 项 目 相同 的 每 两 个 & 频繁 模式 执行 join 操作 ,得 到 候选 k 十 1 项 集 Co; 
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insert into Ce 


Select p.iteml,p.item?,** ,p.itemk,q.itemk from Iy .p,Ix .9 


where p.iteml= q.iteml and ... and p.itemk- 1=q.itemk- 1 and p.itemk< q.itemk 


第 2 步 ,根据 Apriori 性 质 ,对 Ce+ 进行 剪 枝 。 


for each itemset cE Cekdo 
for each k- subsets 属 于 c do 
if(s 不 包含 于 Li) then delete c from Co 


扫描 数据 库 一 遍 , 确 定 每 个 cE Ce 的 支持 计数 , 据 此 得 出 频繁 & 项 集 世 ti。 
在 第 1 次 迭代 的 第 1 步 中 ,产生 包含 所 有 1- 项 集 的 候选 集 , 即 源 数据 中 所 有 的 项 。 通 


过 对 事务 的 搜索 ,计算 出 支持 度 。 然 后 ,选择 支持 度 大 于 所 需 阔 值 的 1- 项 集 为 频繁 项 集 。 
这 样 ,通过 第 1 次 迭代 ,得 到 所 有 频繁 1- 项 集 。 二 
在 第 kk>1) 次 迭代 中 ,对 Le 中 的 项 集 两 两 进行 连接 操作 , 然 「TiD | 项目 列表 
后 对 得 到 的 项 集 , 根 据 Apriori 性 质 判 断 每 个 项 集 是 否 是 可 能 的 频繁 | TI | 1.2.15 
项 集 , 得 到 C ,再 根据 Cs 的 支持 度 确定 出 L:。 直 到 不 能 够 再 从 Ci 产 ps 
生 Leri 频繁 项 集 的 计算 过 程 结束 。 通 过 次 迭代 ,就 可 以 产生 长 度 | | iz 
从 1 到 & 的 所 有 频繁 项 集 。 ed 
5.2.2 产生 频繁 项 集 的 实例 T7 | 11,1213,15 
T8 12,13,14 
假定 某 数据 库 D 中 包含 有 项 目 { 卫 ) {I2) 、{13)、{I14) 和 {15) ,用 户 站 ee 
要 求 的 最 小 支持 度 阔 值 ;二 20%。 数 据 库 D 如 图 5-1 所 示 。 
1. 第 工 次 迭代 ,产生 频繁 1- 项 集 图 5 1 示例 数据 库 


按照 上 述 产生 频繁 项 集 的 过 程 ,在 进行 第 1 次 迭代 时 ,首先 产生 


候选 1- 项 集 C, ,如 表 5-1(a)。 然 后 ,算法 计算 每 一 个 候选 项 集 的 出 现 次 数 ,计算 支持 度 ,如 


表 5-1(b)。 最 后 ,选择 支持 度 s 宇 20% 的 项 目 ,生成 频繁 1- 项 集 L, ,如 表 5-1(c) 。 
表 5-1 Apriori 算 法 的 第 1 次 迭代 
候选 1- 项 集 C 候选 1- 项 集 计数 | s [%] 频繁 1- 项 集 L， | 计数 | *[%%] 
{11} {11} 4 40 {11} 4 40 
{12} {12} vA 70 {12} 人 70 
{13} {13} ba 70 {13} 7 70 
{14} {14} 1 40 {I4} 4 40 
{15} {15} 1 40 {15} 4 40 
(a) (b) (ce) 


2. 第 2 次 迭代 ,产生 频繁 2- 项 集 
在 Apriori 算法 中 ,使 用 Li * L 产生 候选 项 集 。“ x* ”运算 定义 为 : 
LixLi= {XUY,X,Y EL,|XNY|=k—1)} 


当 & 一 1 时 ,该 运算 为 单 连 接 。 设 C 为 包含 在 第 2 次 迭代 中 产生 的 2- 项 集 。 按 照 上 述 
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公式 ,产生 的 2- 项 集 数量 应 该 为 |L1| * (|Li| 一 1)/2。 在 此 例 中 为 5 * 4/2 王 10。 因 此 , 产 
生 10 项 候选 2- 项 集 C* ,如 表 5-2(a)。 然 后 ,算法 统计 每 一 个 候选 集 的 出 现 次 数 并 计算 支 
持 度 , 如 表 5-2(b)。 最 后 ,选择 支持 度 s; 宇 20% 的 项 集 形成 频繁 2- 项 集 L; ,如 表 5-2(c) 。 


表 5-2 Apriori 算法 的 第 2 次 迭代 


候选 2- 项 集 C， 候选 2- 项 集 计数 | s[%] 频繁 2- 项 集 L, 计数 | s[%] 
{11,12} {11,12} 30 {D,I2} 3 30 
{11,13} {11,13} 5 20 {1,13} 2 20 
{11,14} {11,14} 1 10 
{11,15} {I1,15} 2 20 {I1 ,15} 2 20 
{12,13} {12,13} 4 40 {12,13} 4 40 
{12,14} {12,14} 30 {12,14} 30 
{12,15} {12,15} 3 30 {12,15} 3 30 
{13,14} {13,14} 区 20 {13,14} 2 20 
{13,15} {13,15} 3 30 {13,15} 30 
{14,15} {14,15} 0 0 

(a) ET (ce) 


3. 第 3 次 迭代 ,产生 频繁 3- 项 集 

候选 项 集 C， 可 以 使 用 运算 L。 * Ls 产生 。 连 接 运算 可 产生 项 集 {I1,12,13), {11,12， 
I5}, {11,13,15}, {12,13,14}, {12,13,15}, {12,14,15},{13,I4,15) ,而 其 中 项 集 {I2,I4,I5)》 
和 {13,I4,15) 的 子 集 {14,15} 不 包含 在 频繁 2- 项 集中 ,根据 Apriori 性 质 ,这 两 个 项 集 不 能 够 
成 为 候选 3- 项 集 ,其 他 5 个 项 集 的 所 有 子 集 都 是 频繁 的 ,所 以 可 以 成 为 候选 3- 项 集 。 由 此 
得 到 的 候选 3- 项 集 C， 如 表 5-3(a) 所 示 。 对 Cs 的 计数 结果 在 表 5-3(b) 中 ,最 终 得 到 如 
表 5-3(c) 所 示 的 频繁 3- 项 集 L;。 


表 5-3 Apriori 算法 的 第 3 次 迭代 


候选 3- 项 集 Cs 候选 3- 项 集 计数 | s[%] 频繁 3- 项 集 L 计数 | s[%] 
{11,12,13} {11,12,13} 1 10 
{11,12,15) {11,12,15} 2 20 {11,12,15) 2 20 
{11,13,15) {11,13,15} i 10 
{12,13,14) {12,13,14) 1 10 
{12,13,15} {12,13,15} 2 20 {12,13,15) 2 20 
(a) TR (Co 


根据 Apriori 性 质 , 如 果 要 求 一 个 频繁 项 集 的 所 有 子 集 都 是 频繁 的 , 则 L; 中 至 少 要 有 3 
个 项 集 , 才 可 能 产生 一 个 频繁 4- 项 集 ,因为 一 个 频繁 4- 项 集 至 少 有 3 个 长 度 为 3 的 子 集 。 在 
此 例 中 工 ; 无 法 产生 候选 4- 项 集 ,所 以 算法 到 此 停止 迭代 。 
Apriori 算法 不 仅 计算 所 有 频繁 项 集 的 支持 度 , 也 计算 那些 在 由 Apriori 性 质 不 能 排除 
的 非 频繁 候选 项 集 的 支持 度 。 所 有 这 些 非 频繁 ,但 符合 Apriori 性 质 的 候选 项 集 的 集合 被 
称 为 负 边 界 。 如 果 项 集 是 非 频繁 的 ,但 它 的 所 有 子 集 都 是 频繁 的 ,那么 它 就 在 负 边界 中 。 
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在 上 述 例子 中 ,从 表 5-1 和 表 5-2 可 以 看 出 , 负 边 界 由 项 集 {11,14),{I4,15), {11,12， 
I3),{I11,I13,15} 和 {I2,I3,14) 组 成 。 
负 边 界 在 一 些 Apriori 的 改进 算法 中 更 为 重要 ,例如 生成 频繁 项 集 或 者 导出 负 关 联 规 


则 时 ,提高 其 有 效 性 。 


5.2.3 ”从 频繁 项 集 产 生 关 联 规则 


在 使 用 Apriori 算法 或 其 他 类 似 的 算法 所 发 现 的 所 有 频繁 项 集 基 础 上 ,挖掘 关联 规则 。 
对 任意 一 个 频繁 项 集 ,首先 计算 它 的 子 集 , 如 对 频繁 3- 项 集 { 了 1,I2,15}, 可 以 计算 得 到 它 的 
子 集 { 卫 ,I2} 和 {I15), {了 1,I15} 和 {12},{I2,I15} 和 {I1), 由 频繁 项 集 产生 的 规则 可 知 ,这 些 子 集 
都 是 频繁 的 。 可 以 得 到 规则 {I1,I2}-~>I5, {IL,I5}-~>I2.{I2,I5}-~>I1。 然 后 ,计算 规则 的 置 
信 度 ,例如 : c({I1,I2}~>I5)=s(I1,I2.I5)/s(I1,I2) 一 2/3 ,置信 度 c 大 于 给 定 的 阔 值 的 规则 


就 是 强 关 联 规则 。 


在 上 述 例子 中 ,如 果 设 定 规则 的 置信 度 为 60% ,得 到 的 部 分 强 关 联 规 则 如 表 5-4 所 示 。 


表 5-4 Apriori 算法 得 到 的 强 关 联 规则 


频繁 项 集 产生 的 规则 置信 和 度 强 关 联 规 则 置信 和 度 
{11,12} >I2 3/4 和 一 到 3/4 
I2-*11 3/7 
{11,13} ll13 2/4 
1311 2/7 
{11,15} 11>15 2/4 
15—>11 2/4 
{12,13} I2—>13 4/7 
13>I2 4/7 
{12,14} I12—14 3/7 
I4—1I2 3/4 14>I2 3/4 
{12,15} l2—15 3/7 
15—>12 3/4 15—>I2 3/4 
{13,14} 13—>14 2/7 
14—13 2/4 
{13,15} 13—>15 3/7 
15—13 3/4 I5 一 1I3 3/4 
{11,12,15} 11,12—>15 2/3 11,12—15 2/3 
11,I15—>12 2/2 11,15—>I2 2 入 
12,15—>I11 2/3 12,15-—>11 2/3 
{12,13,15} 12,13—15 2/4 
I2,I15—>13 2/3 12,15—>13 2/3 
13,15—>12 2/3 13,I15—>12 2/3 
(a) (b) (0) 


。99。 


值得 注意 的 是 ,并 不 是 所 有 被 挖掘 出 来 的 强 关联 规则 都 有 意义 或 者 都 有 用 .需要 注意 它 
们 是 否 有 负 关 联 的 情况 。 这 个 问题 ,在 此 不 做 详细 分 析 。 


5.3 FP-Growth 算法 


不 产生 候选 项 集 的 方法 中 ,最 有 代表 性 的 是 FP-Growth 算法 。FP-Growth 算法 采用 一 
种 称 为 频繁 模式 树 (FP-tree) 的 结构 ,FP-tree 是 为 了 存储 与 频繁 模式 相关 的 关键 信息 而 设 
计 的 一 棵 压缩 的 ,扩展 前 级 树 结构 。FP-growth 算法 包括 构成 FP-tree 和 从 FP-tree 得 到 频 
繁 模式 两 个 阶段 。 为 了 构成 FP-tree 需要 扫描 数据 库 两 次 ,第 一 次 统计 事务 中 所 有 项 的 出 
现 次 数 , 并 按照 出 现 次 数 的 大 小 排序 ,形成 一 个 列表 (假设 所 有 事务 中 包含 的 项 都 以 这 个 顺 
序 排列 )。 第 二 次 扫描 数据 库 构 建 FP-tree。 树 的 根 结 点 是 一 个 空 结 点 ,不 代表 任何 信息 , 根 
结 点 之 外 的 所 有 结 点 都 代表 一 个 项 目 , 用 数 对 (项 目 名 : 支持 数 ) 表 示 。 为 了 方便 对 树 的 遍 
历 ,还 采用 了 一 个 称 为 项 目 头 的 表格 结构 , 表 中 按 出 现 频率 递减 的 顺序 存放 了 所 有 项 目 , 并 
且 保 存 了 项 目 在 树 中 出 现 位 置 的 指针 ,同一 项 目 在 树 中 的 多 次 出 现形 成 一 个 结 点 链 。 

由 FP-tree 得 到 频繁 模式 的 过 程 是 从 频 度 最 小 的 频繁 项 开始 ,采用 一 种 称 为 
FP-Growth 的 方法 自 底 向 上 地 在 条 件 模式 库 上 进行 挖掘 。 

由 于 不 产生 大 量 的 候选 集 ,FP-Growth 算法 的 计算 时 间 远 远 小 于 Apriori( 大 约 一 个 数 
量 级 ) ,但 是 在 处 理 长 模式 时 ,构造 FP-tree 的 代价 较 高 。 到 目前 为 止 ,FP-tree 是 最 杰出 的 
关联 规则 挖掘 算法 。 


5.3.1 FP-Growth 算法 计算 过 程 


FP-tree 的 构建 算法 描述 如 下 : 
(1) 扫描 事务 数据 库 一 次 ,得 到 频繁 项 的 集合 下 及 其 支持 度 。 对 下 按 支持 度 降序 排 
列 , 生 成 频繁 项 列表 Li 。 
(2) 创建 FP-tree 的 根 结 点 工 ,以 “null" 标 记 。 对 于 数据 库 中 的 每 条 事务 ,执行 操作 3 一 5。 
(3) 将 事务 中 的 频繁 项 目 按 L, 中 的 次 序 排列 。 排 序 后 的 频繁 项 项 目 列 玉 
表 表 示 为 [p|P], 其 中 p 是 第 一 个 频繁 项 ,P 是 剩余 项 目 列表 。 Ts 
(4) 调用 insert-tree([p1Pj],T), 即 由 根 结 点 工 开 始 ,如 果 荆 有 T2 | WD 
子 结 点 N 满足 N. item-name 王 p. item-name, 则 结 点 N 的 计数 增 1; 了 | 芝 


否则 创建 一 个 新 结 点 N .将 其 计数 置 为 1, 连 接 到 其 父 结 点 ,并 且 通 | 区 
过 结 点 链 结构 将 其 连接 到 具有 相同 item-name 的 结 点 。 3 | 
(5) 如 果 频 繁 项 表 P 非 空 ,递归 地 调用 insert-tree(P, N) 。 Tg | 1112135 
图 5-2 是 一 个 示例 数据 库 ,图 5-3 表示 了 从 示例 数据 库 创建 的 T9 | TI2,13 
FP-tree。 图 5-2 示例 数据 库 


从 FP-tree 挖掘 频繁 模式 的 方法 称 为 FP-Growth. 描 述 如 下 : 


Procedure FP- growth (Tree,o) 
if Tree 含 单个 路 经 p then 
for 路 径 p 中 结 点 的 每 个 组 合 ( 记 作 有 ) 
产生 模式 8Uc, 其 支持 度 为 8 中 结 点 的 最 小 支持 度 ; 
“ 100% 


null 


项 目 | 支持 度 计数 | 结 点 链 ]1-- 一 ” 
12 | 

1 5. | < 

B3 5 | -=--j--- 

14 4 | =-- 寺 - 

15 3 [Ea 


else for each co: 在 Tree 的 头 部 
{ 
产生 一 个 模式 B= cs Uo, 其 支持 度 为 e 的 支持 度 ; 
构造 8 的 条 件 模 式 基 , 然 后 构造 8 的 条 件 FP- Tree; 
if Tree 夫人 then 
调用 Fp- growth (Tree,B) 
} 
算法 将 发 现 长 模式 的 问题 转换 成 递归 地 发 现 一 些 短 模式 ,然后 连接 后 级 。 使 用 最 不 频 
繁 的 项 作为 后 组 ,降低 了 搜索 的 开销 。 


5.3.2 FP-Growth 算法 示例 


第 1 步 ,扫描 图 5-2 所 示 的 示例 数据 库 一 次 ,统计 各 个 项 目的 支持 度 计数 ,将 各 个 频繁 
项 目 按 支持 度 递减 排序 ,形成 频繁 项 列表 , 即 头 表 。 

第 2 步 ,再 次 扫描 数据 库 ,按照 第 5. 3. 1 小 节 中 FP-tree 创建 算法 将 数据 库 中 的 事务 信 
息 压缩 到 FP-tree 上 ,结果 如 图 5-3 所 示 。 

第 3 步 ,由 支持 度 最 小 的 项 目 I5 开始 .按照 I5 的 同名 结 点 链 找到 树 上 所 有 名 为 15 的 结 
点 ,计算 每 个 15 到 根 的 路 径 , 得 到 项 目 15 的 条 件 模式 基 : 二 12,11:1>， 
二 12,11,13:1 祖 ,二 了 1,14:1 放 ,合并 这 三 个 条 件 模 式 基 得 到 I5 的 条 件 模式 
树 。 合 并 的 结果 得 到 两 个 分 支 : <I2:2,I1:2,I3:1> 和 <I1:1,I4:1>, 假 
设 设 定 的 最 小 支持 度 为 2, 则 这 两 个 分 支 可 以 构成 条 件 模 式 树 二 I2:2,11:2>， 
因为 在 分 支 <I2:2,Il :2,I3:1 二 中,I3 的 支持 度 只 有 1, 不 能 成 为 条 件 模 
式 树 上 的 结 点 。 而 分 支 <I1:1,I4:1 二 的 支持 度 也 为 1, 同样 不 能 够 作为 
条 件 模式 树 上 的 分 支 。 最 终 构成 I5 的 条 件 模 式 树 只 有 1 个 分 支 ,如 图 54 5 的 条 件 

三 模式 树 

图 5-4 所 示 。 

由 条 件 模 式 树 , 可 以 得 出 的 频繁 模式 为 <I2,15:2>,< 11,15:2 之 ,过 I2,I1,I5:2>>, 生 
成 了 所 有 以 I5 为 后 缀 的 频繁 模式 。 

按照 步骤 3 的 过 程 可 以 依次 计算 得 出 以 14.13.11,12 为 后 缀 的 频繁 模式 。 


null 


11 


“ 10 


FP-Growth 类 算法 的 缺点 是 构建 FP-tree 的 时 间 和 空间 代价 较 高 ,特别 是 在 挖掘 数据 
集 为 稀 朴 数据 的 时 候 , 效 率 甚至 低 于 Apriori 算法 ;另外 ,基于 FP-tree 结构 的 算法 在 挖掘 过 
程 中 都 只 记录 频繁 项 信息 , 同 Apriori 算法 及 其 改进 算法 相 比 ,在 应 用 领域 上 有 所 限制 。 


5.4 利用 SQL Server 2005 进行 关联 规则 挖掘 


SQL Server 2005 提供 了 比 SQL Server 2000 更 多 的 数据 挖掘 模型 ,包括 关联 规则 、 聚 
类 分 析 、 决 策 树 、 人 逻辑 回归 、 神 经 网 络 、 时 序 、 顺 序 分 析 和 聚 类 分 析 、 线 性 回归 等 。 这 些 功 能 由 
Analysis Services 服务 器 提供 ,集成 在 SQL Server Business Intellegence Development 
Studio 中 。 

下 例 为 某 银行 的 客户 贷款 数据 库 , 其 中 记录 了 客户 的 背景 数据 以 及 贷款 情况 ,银行 需要 
从 这 些 数据 中 发 现 客户 背景 与 不 良 贷款 之 间 的 关系 ,也 就 是 要 发 现 具有 哪些 背景 的 用 户 更 
容易 产生 不 良 贷 款 。 解 决 这 一 问题 ,可 以 采用 关联 规则 挖掘 方法 ,从 现 有 用 户 数据 中 发 现形 
如 “背景 特征 三 二 贷款 情况 ”的 规则 ,并 将 规则 应 用 于 以 后 的 贷款 业务 中 。 本 节 应 用 SQL 
Server 2005 的 数据 挖掘 工具 实现 这 一 目的 。 

1. 数据 准备 

图 5-5 和 图 5-6 是 两 张 数 据 表 , 分 别 保存 客户 基本 情况 和 贷款 余额 情况 。 


EY ”x 
| 客户 名 称 客户 类 型 经 济 性 质 于 屎 关系 法 人 资格 客户 状态 | 重点 标志 自 
» Ko45 单 位 物资 国有 区 县 原 法 人 正常 夺 重 点 可 
KD17 单 位 其 他 黄 他 地 州 市 原 法 人 正常 非 重点 
K082 单 位 商业 集体 丙 好 法 人 正常 非 重点 
K050 单 位 商业 国有 中 央 法 人 正常 一 人 重点 
Kos7 单 位 下 他 瑟 好 地 州 市 属 法 人 正常 村 重点 
KD88 单 位 工业 国有 控 胶 省 慰 法 人 正常 国家 重点 
K179 单 位 工业 国有 省 属 法 人 正常 一 要 重点 
Ki85 单 位 工业 国有 省 属 法 人 正常 一 铺 重 点 
KD19 单 位 物资 其 他 省 尾 授权 法 人 正常 一 级 芝 点 
K080 单 位 其 他 BA 军 办 法 人 正常 寺 旱 点 
Kozs 单 位 工业 国有 地 州 市 尿 授权 法 人 半 停 产 一 级 重 点 
K134 单 位 其 地 国有 地 州 市 属 法 人 正常 二 级 重点 
koo9 单 位 工业 股份 合作 区 县 尿 法 人 正常 非 重点 
KD02 单 位 工业 国有 控股 省 属 法 人 正常 一 令 重 点 
Ko02 单 位 供销 国有 省 屡 授权 法 人 正常 一 部 重点 
ko23 单 位 工业 国有 控股 省 属 法 人 正常 一 丰年 点 
KD12 单 位 工业 国有 区 县 履 法 人 正常 丰 填 点 
K027 单 位 了 工业 采 营 地 州 市 属 法 人 正常 直 重 点 
KD12 单 位 工业 国有 区 县 尾 法 人 正常 直 重 点 
ko07 单 位 工业 国有 区 县 尿 法 人 正常 丰 重 点 


55 客户 基本 情况 表 


首先 ,为 了 区 别 每 一 笔 业务 ,在 “贷款 余额 表 ” 中 添加 一 个 主键 列 ,命名 为 “业务 号 ”, 使 用 
“smallint” 数 据 类 型 并 设置 为 标志 字段 。 

其 次 ,为 了 简化 挖掘 过 程 ,将 这 两 张 表 的 信息 合并 到 同一 张 表 中 。 合 并 方法 采用 图 5-7 
所 示 的 SQL 语句 实现 。 

数据 合并 之 后 产生 的 新 表 命 名 为 t_dm, 其 中 包含 了 客户 基本 信息 表 的 所 有 信息 和 贷款 
余额 表 中 的 部 分 信息 。 如 图 5-8 所 示 。 

2. 实现 挖掘 任务 

使 用 SQL Server 2005 挖掘 工具 提供 的 关联 规则 挖掘 模型 对 表 t_dm 中 的 数据 进行 挖 

*。 102 。 


I 


| 业务 发 生日 作客 

2002:3-20 0:00:00 44000000.00 44000000.00 0.00 000 oo ao 
2002:8-30 0:00:00 2700000.00 oo oo 000 2700000,.00 oo 
2002.6.30 0:00:00 1200000.00 00 000 000 1200000.00 oo 
2002-7-30 0:00:00 3000000.00 om ooo ooo 3000000.00 oo 
2002-9-25 0:00:00 500000.00 00 00 000 500000 o0 Do 
2002-9-25 0:00:00 1410000.00 om oo ooo 1410000.00 00 
2002-8-30 0:00:00 1400000.00 000 000 000 1400000.00 oo 
2002-8-31 0:00:00 526457.00 S26457.69 oo oo ooo 00 
2002-8-31 0:00:00 10474.00 10474.58 000 000 oo0 oo 
2002-8-31 0:00:00 70623.00 70623.69 000 ooo ooo oo 
2002-8-31 0:00:00 20393.00 20393.01 0.00 000 000 00 
2002-8-31 0:00:00 468.00 468.63 ooo 000 oo0 oo 
2002-8-31 0:00:00 20882.00 20882.30 0.00 0.00 000 000 
2002-8-31 0:00:00 3519.00 3519.27 oo oo0 ooo oo 
2002-8-31 0:00:00 296505.00 296505.28 0.00 0o00 000 000 
2002-8-31 0:00:00 54395.00 54395.64 000 ooo oo oo 
2002-8-31 0:00:00 83952.00 83952.70 0.00 0o0 oo0 000 
2002-8-31 0:00:00 6266.00 6266.48 oo0 000 oo on 
2002-8-31 0:00:00 313747.00 313747.75 000 0o00 oo0 000 
2002-8-31 0:00:00 1271511.00 1271511.10 000 000 000 00 
2002-8-31 0:00:00 450770.00 450770.20 000 000 000 000 
2002-8-31 0:00:00 560833.00 560633.51 oo0 000 oo0 oo 
2002-8-31 0:00:00 21508.00 21508.60 0.00 oo0 oo00 000 
2002-8-31 0:00:00 444310.00 44310.50 oo0 000 000 00 


图 56 贷款 余额 表 


select a.*,b. 正 常 ,b. 
into t_dm 


zrom 客户 基本 情况 表 ss a 


JoIN 价款 余额 表 as b 


ON a. 客 户 代码 -5. 客 户 代码 | 


客户 代码。 客户 名 称 客户 区 对 经 济 性 员 | 丸 展 关系 法 人 资格 客户 状态 重点 标 志 作业 
》 | EUR 222 间 位 商业 集体 无 素 屎 ”法 人 半 投 产 。 非 重 点 。 15000000.00 15000000.00 0,00 0.00 000 
77020130000222 rzzz 单 位 商业 集体 无 素 展 ”法 人 站 投产 。 地 重点 。 5000000.00 。 so00000.00 0.00 oo oo0 
77020130000222 rzzz 单 位 商业 集体 无 素 慰 ”法 人 站 投产 。 幸 重点 。 4750000.00 47s0000.00 0.00 on oo 
| azotaoooozzz rzzze 位 商业 集体 无 各 民法 人 半 损 产 。 非 重 点 。 4000000.00 。 4000000.00 。 0.00 on oo0 
77020130000222 rz2zz 单 位 商业 集体 无 时 ”法 人 站 投产 。 地 重点 。 6000000.00 。 6000000.00 0.00 oo oo0 
77020130000228 rz226 单 位 ” 物 将 其 好 觅 从 制 无 于 民法 人 正 党 村 填 点 。 20000r00.00 20000000.00 0.00 non om 
77020130000239 rzsg 单 位 商业。 国有 控 底 ”无 系 慰 ”法 人 正常 ”地 填 点 。 10000000.00 10000000.00 0.00 Do oo0 
77020130000239 rz2s9 单 位 商业。 国有 控 肢 ”无 时 ”法 人 正常 地 重点 。 10000000.00 10000000.00 0.00 0o0 oo0 
77020130000252 K252 单 位 ”其 他 国有 地 州 市 犀 ” 事 业 法 人 正常 一 启 重 点 6000000.00 。 8000000.00 0.00 0.00 0.00 
770z0t30000252 Kk2s2 单 位 其 地 国有 地 州 市 属 事业 法 人 正常 一 赂 重点 14000000.00 14000000,00 0.00 0.00 0.00 
77020130000252 K252 单 位 ”其 他 国有 地 州 市 属 事业 法 人 正常 一 筑 重 点 ”20000000.00 20000000,00 0,00 0.00 0.00 
77020130000252 K252 单 位 ”其 他 国有 地 州 市 犀 ” 事 业 法 人 正常 一 赢 重点 76000000.00 76000000.00 0.00 0.00 0.00 
77020130000253 K253 单 位 物资 其 他 其 他 法 人 正常 非 重 点 。 4000000.00 。 4000000.00 0.00 0.00 0.00 
| anyoooooos rose 位 供 铂 其 地 地 州 市 夺 法 人。 正常。 地 重点 5000000.00 0.00 oa oa0 Sooor 
|770zot40000021 kozt 单 位 工业 国有 地 州 市 属 法 人 正常 非 重点 。 30000000.00 30000000.00 0.00 0.00 0.00 
| ozotqooooozl rozl 单 位 工业 国有 地 州 市 属 法 人 正常。 非 重 点 。 2500000.00 。 2500000.00 。 0.00 oo 0o0 
77020140000022 K022 单 位 ”工业 国有 地 州 市 司 ” 授 权 法 人 正常 一 赢 重点 3100000.00 0.00 0.00 3100000.00 0.00 
“zzozot4ooo002z kozz 单 位 工业 国友。 地 州 市 展 授权 法 人 正常 。 一朗 重点 4000000.00 0.00 oa 4000000.00 000 
| ozot4oooooze kozs 单 位 工业 国有 省 属 法 人 正 曲 寺 重 点。 500000.00 。 S000000.00 0.00 on 0o0 
| ozotyooooo4s koss 单 位 工业 集体 区 县 属 ”法 人 正常 。 非 重 点 26000000 0.00 280000.00 0.00 oo 
”77020140000053 kos3 单 位 工业 国有 控 舟 。 地 州 市 尾 法 人 正 富 一 筑 重 点 ”4600000.00 。 4800000.00 0.00 0.00 000 


图 58 合并 产生 的 表 


掘 。 观 察 客户 的 背景 特征 与 贷款 情况 的 关系 。 
从 “开始 ”菜单 启动 Microsoft Visual Studio, 如 图 5-9 所 示 。 
启动 Microsoft Visual Studio 之 后 ,选择 “文件 ”1“ 新 建 ”"| “项目 ”菜单 ,打开 新 建 项 目 对 
话 框 。 新 建 一 个 Analysis Services 项 目 。 并 且 在 对 话 框 中 指定 项 目 名 称 和 存放 位 置 。 见 
图 5-10。 
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图 59 启动 Mcrosoft Visual Studio 


模板 CD) - 
Visasl Stadie 已 安装 的 模板 


Analysis Services 项 目 Integration Services 项 目 
导入 Analysis Services 9.0 .， 鸯 报表 服务 器 项 目 向 导 


上 Er 报表 模型 项 目 
atforn Builder for cE6.0 | 量 国 ; 


_ 委 的 模板 
国 交 未 联机 模板 


创建 新 的 Analysis Services 项 目 
eredit 
JF \ 书 稿 \ 数 据 挖 据 改 版 


[eredit 


图 510 新 建 Analysis Services 项 目 


创建 成 功 之 后 ,将 在 解决 方案 资源 管理 器 中 显示 新 建 项 目 , 如 图 5-11 所 示 。 

使 用 SQL Server 的 挖掘 模型 ,首先 要 为 项 目 创建 数据 
源 。 在 Microsoft SQL Server 2005 Analysis Services(SSAS) 
中 ,数据 源 实 际 上 是 一 个 连接 字符 串 ,表示 到 数据 源 的 连接 ， 
用 来 指明 Analysis Services 如 何 使 用 托管 Microsoft. NET 
Framework 或 本 机 OLE DB 访问 接口 连接 到 物理 数据 存储 区 ， 
该 连接 字符 串 包 含 服务 器 名 称 、 数 据 库 、 安 全 性 、 超 时 值 以 及 其 
他 与 连接 相关 的 信息 。Analysis Services 直接 支持 多 种 数据 
源 , 包 括 Microsoft SQL Server 数据 库 以 及 通过 其 他 产品 创建 
的 数据 库 。 

创建 数据 源 的 过 程 参见 第 2.5 节 。 这 里 ,创建 一 个 名 为 
dm 的 新 数据 源 , 该 数据 源 将 连接 数据 表 t_dm 所 在 的 数据 库 。 

接 下 来 创建 新 的 数据 源 视图 。 数 据 源 视图 提供 一 组 已 经 存在 的 、 可 浏览 的 ,持久 化 数据 
库 对 象 ( 例 如 表 、 视 图 和 关系 )。Analysis Services 中 的 联机 分 析 处 理 (OLAP) 和 数据 挖掘 对 
象 可 以 引用 这 些 数据 库 对 象 。 对 这 些 对 象 进行 组 织 和 配置 ,以 便 为 数据 源 提供 完整 的 架构 
表示 形式 。 在 Analysis Services 项 目 或 部 署 数 据 库 中 生成 数据 源 视图 后 ,该 数据 源 视图 就 
可 供 Analysis Services 中 的 任何 OLAP 或 数据 挖掘 对 象 使 用 。 创 建 数 据 源 视图 的 方法 同 
创建 数据 源 相 同 , 可 以 使 用 资源 管理 器 中 的 右键 菜单 ,如 图 5-12 所 示 。 
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创建 数据 源 视图 向 导 见 图 5-13。 


欢迎 使 用 数据 源 视图 向 导 


se 站 


[bs 


图 512 新 建 数据 源 视图 图 513 数据 源 视图 向 导 
首先 为 数据 源 视图 选择 一 个 数据 源 。 可 以 从 选择 列表 中 选择 一 个 已 有 的 数据 源 ,也 可 
以 使 用 这 个 页 面 中 的 “新 建 数 据 源 ” 按 钮 新 建 一 个 数据 源 , 如 图 5-14 所 示 。 


站 数据 源 视图 向 导 


择 数据 源 
选择 现 有 的 关系 数据 源 ,或 新 建 一 个 关系 数据 源 。 


Inteprated . 
Provider 


《上 一 步 四 ET 


图 514 选择 数据 源 


接 下 来 会 显示 所 选 数据 源 所 连接 的 数据 库 中 的 表 或 者 视图 对 象 , 如 图 5-15 所 示 。 

在 可 用 对 象 中 单 击 分 析 所 需要 的 表 , 然 后 用 EJ] 按钮 将 选中 的 表 移 动 到 包含 对 象 中 ,可 
以 选中 多 个 表 。 如 果 要 删除 一 个 已 经 选中 的 表 , 可 以 使 用 [Ej] 按钮 将 其 从 “包含 对 象 ” 中 移 
除 。 如 果 要 选中 或 者 取消 所 有 表 , 可 以 使 用 国 或 国 按 钮 。 本 例 中 ,已 经 将 训练 模型 的 数据 
放 进 一 个 表 t_dm 中 ,所 以 将 该 表 加 入 到 “包含 对 象 " 中 。 

筛选 器 的 功能 是 筛选 “可 用 对 象 " 下 列 出 的 对 象 , 类 似 于 * 查 找 ? 功 能 。 键 入 目标 对 象 名 
中 包含 的 字符 串 ,再 单 击 “ 筛 选 器 ? 即 可 列 出 包含 指定 字符 串 的 对 象 名 称 。 筛 选 器 不 区 分 大 

“105“ 


本 数据 源 视图 向 导 


择 表 和 视图 
从 要 包含 在 数据 亚视 图 中 的 关系 数据 库 中 选择 对 象 - 


类 型 
表 
表 
囊 


图 dbo. 客户 基本 情况 表 


< -sw |[ 下 - 步 中 > ]| so >| |[ mm 


图 515 选择 表 和 视图 
小 写 。 筛选 器 字符 串 中 的 任意 位 置 都 可 以 使 用 使 用 通配符 : * 和 % 可 以 代表 任意 字符 串 ;? 


代表 一 个 单个 的 字符 。 
单 击 “ 显 示 系 统 对 象 "按钮 ,可 以 在 “可 用 对 象 ” 显 示 框 中 显示 该 数据 源 中 的 系统 对 象 。 
当 在 “包含 对 象 "中 选中 一 个 对 象 ,并 单 击 * 添 加 相关 表 ? 按 钮 时 ,将 会 把 与 该 对 象 相关 的 对 象 
移动 进来 ,此 选项 不 能 添加 视图 。 
选择 好 数据 表 之 后 , 单 击 " 下 一 步 "按钮 ,进入 图 5-16 所 示 的 界面 。 为 新 建 的 数据 源 视 
图 取 一 个 名 字 v_dm, 就 完成 了 数据 源 视 图 的 创建 。 
四 数据 源 视图 向 导 


完成 向 导 
请 提供 一 个 名 称 ， 熔 后 单 击 “ 完 成 ”以 创 娃 新 数据 源 视 图 


名 称 愉 ) 
| 区 


预 W @) 


区 二 到 
回 abe tt 


图 516 命名 数据 源 视 图 


回 到 Microsoft Visual Studio 主 界面 ,就 可 以 看 到 上 面 选 中 的 表 对 象 的 信息 , 见 


图 5-17。 如 果 要 创建 和 使 用 多 维 数据 集 , 则 参考 第 2. 5 节 创 建 数据 仓库 的 过 程 。 
下 一 步 创建 挖掘 结构 。 挖 掘 结 构 和 挖掘 模型 是 SSAS 数据 挖掘 中 使 用 的 两 个 主要 对 
象 。 挖 气 结 构 是 一 种 数据 结构 , 它 定义 生成 挖掘 模型 的 数据 域 。 一 个 挖掘 结构 可 包含 多 个 
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图 517 数据 源 视图 具体 信息 


共享 相同 域 的 挖掘 模型 。 挖 掘 结构 对 数据 源 包含 的 数据 进行 说 明 , 由 挖掘 结构 列 构成 ,这 些 
列 包含 列 数据 闫 型. 列 内 容 关 型 等 信息 挖掘 结构 也 可 包含 嵌 套 表 , 嵌 套 表 表示 事例 实体 与 
其 相关 属性 之 间 的 一 对 多 关系 。 例 如 ,如 果 客 户 说 明 信 息 位 于 一 个 表 中 ,而 客户 贷款 信息 位 

一 个 表 中 , 则 可 使 用 嵌 套 表 将 这 些 信息 组 合 到 一 个 事例 中 。 客 户 标识 符 是 实体 ,采购 信 
息 是 相关 属性 。 

同 挖掘 结构 一 样 ,挖掘 模型 也 包含 列 。 挖 掘 模型 包含 在 挖掘 结构 之 内 ,继承 由 挖掘 结构 
定义 的 所 有 属性 值 。 该 模型 可 以 使 用 挖掘 结构 包含 的 所 有 列 ,或 使 用 其 中 一 部 分 列 。 另 外 ， 
挖掘 模型 中 还 包含 使 用 列 的 方法 和 模型 所 用 的 算法 。 

创建 挖掘 结构 也 使 用 右键 菜单 启动 创建 向 导 , 如 图 5-18 和 图 5-19 所 示 。 


f 数据 挖 据 向 导 


欢迎 使 用 数据 控 气 向 导 


Be 


单 击 “下 一 步 ” 将 生成 挖 据 结 构 和 挖 所 模型 ， 单 击 “ 取 消 ”将 退出 向 导 。 


加 不 未 此 页 久 


图 518 新 建 挖掘 结构 图 519 数据 挖掘 向 导 欢 迎 界面 
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首先 ,选择 创建 挖掘 结构 所 用 的 方法 和 使 用 的 数据 挖掘 技术 ,如 图 5-20 和 图 5-21 
所 示 。 


《 数据 挖 振 向 导 


选择 定义 方法 
选择 他 陵 挖 据 结构 定义 时 要 使 用 的 方法 。 


《上 一步 四 充 成 加 ) 


s 数据 挖 振 向 导 


选择 数据 挖掘 技术 
选择 对 于 您 正 执行 的 分 析 类 型 来 说 最 适用 的 数据 控 据 技术 。 


图 521 选择 挖掘 结构 所 用 的 数据 挖掘 技术 


选择 为 数据 挖掘 结构 提供 数据 的 数据 源 视 图 ,如 图 5-22, 选 择 上 一 步 创 建 的 数据 源 视 
图 v_dm。 单 击 “ 浏 览 ” 按 钮 可 以 显示 所 选 数据 源 视图 中 包含 的 数据 表 信 息 。 

图 5-23 设 定 所 用 数据 表 的 类 型 。 选 择 用 于 定义 挖掘 结构 的 表 , 并 且 将 其 设置 为 “事例 ” 
表 或 者 “ 嵌 套 ” 表 。 未 被 选择 的 表 不 能 用 来 定义 挖掘 结构 。 

本 例 中 ,挖掘 数据 是 由 客户 背景 和 贷款 数据 构成 的 ,每 条 事务 包含 客户 代码 (主键 ) . 背 
景 信息 和 贷款 情况 ,将 该 表 选 择 为 事实 表 。 

选择 表 类 型 之 后 ,需要 进一步 从 数据 表 中 挑选 数据 列 , 并 将 数据 列 指定 为 “ 键 列 "“ 输 入 
列 ? 或 者 “可 预测 列 ”, 如 图 5-24 所 示 。 
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《 数据 挖 据 向 导 


选择 数据 源 视图 
选择 为 挖 所 结构 提供 数据 的 数 闯 淹 视 图 。 


可 用 数据 源 视 图 A): 


< 上- 步 @) || fF- 岁 WD >|| 起 四 


图 522 选择 数据 源 视图 


图 523 指定 表 类 型 


数据 挖 据 向 导 


定 定型 数据 
指定 分 析 中 所 用 的 列 | 


遇 外 外 外 自 自 自 
[sjlsllsjisjsllslslslsl 
日 图 日 图 日 日 日 日 蝇 略 | 


为 当前 选 定 的 可 预测 内 容 提供 输入 建议 


建议 QD 


< 上 一 步 @) | 下 一 步 mD > 完成 四 2>| 取消 


图 524 指定 列 
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可 以 同时 指定 一 个 列 为 可 预测 列 和 输入 列 。 如 果 将 列 选 为 键 ", 则 表示 将 该 列 用 作 数 
据 的 唯一 标志 。“ 输 入 列 ? 指 用 来 预测 “可 预测 列 ” 的 列 , 将 来 出 现在 规则 的 左 侧 .“ 可 预测 
列 ? 指 被 预测 的 列 ,将 来 出 现在 规则 的 右 侧 。 本 例 中 ,使 用 "业务 号 "作为 键 列 ;客户 基本 信息 
应 作为 输入 列 ,“ 客 户 代码 ”“ 客 户 名 称 ” 一 般 只 用 来 区 分 客户 ,并 不 具有 特殊 含义 ,所 以 不 在 
模型 中 选用 该 列 ; 客 户 贷款 的 情况 信息 作为 可 预测 列 。 

建立 挖掘 结构 还 需要 设 定数 据 列 的 数值 形式 和 数据 类 型 ,这 通过 图 5-25 的 界面 来 设 
定 。 创 建 向 导 可 以 根据 数据 源 的 特征 自动 检测 到 以 上 内 容 ,也 可 以 手动 的 设置 在 下 拉 列 表 
中 选择 。 可 选择 的 数据 值 形式 包括 以 下 几 种 。 


《 数据 挖 扰 向 导 
指定 列 的 内 容 和 数据 类 型 
指定 控 据 结构 列 的 内 容 和 数据 类 型 


《上 一 步 @) 下 一 步 中 > 殉 成 中) >>| 取消 | 


图 525 指定 列 内 容 和 数据 类 型 


(1) DISCRETE: 离散 值 。 离 散 属性 列 中 的 值 即使 是 数值 类 型 ,也 不 意味 着 是 有 序数 
据 ; 这 些 值 之 间 是 明确 独立 的 , 且 不 可 能 为 小 数值 ,如 电话 区 号 。 

(2) DISCRETIZED: 从 连续 列 派生 的 值 ,如 果 列 值 是 连续 的 ,通过 分 组 或 者 存储 桶 离 
散 为 几 个 值 段 。 有 关 数 据 离散 化 的 信息 ,可 以 参见 第 4.4 节 。 

(3) ORDERED: 列 包含 定义 有 序 集 的 值 。 所 谓 有 序 集 ,并 不 表示 在 该 集 的 值 之 间 存 在 
任何 差 或 量 级 关系 。 有 序 属性 列 就 内 容 类 型 而 言 是 离散 的 。 

(4) CYCLICAL: 该 列 包含 表示 循环 有 序 集 的 值 。 例 如 .一周 内 顺序 编号 的 7 天 便 是 
循环 有 序 集 ,因为 第 1 天 紧 跟 第 7 天 。 循 环 列 就 内 容 类 型 而 言 既 有 序 又 离散 。 

一 般 情况 下 , 单 击 右 下 方 的 “检测 ?按钮 ,自动 检测 各 个 列 的 取 值 情况 和 数据 类 型 。 

最 后 ,为 挖掘 结构 指定 一 个 名 称 ,就 完成 了 挖掘 结构 的 创建 ,如 图 5-26 所 示 。 

单 击 “ 完 成 ”按钮 , 回 到 主 界面 ,此 时 出 现 了 . dsv 选项 卡 ,如 图 5-27 所 示 。 其 中 包含 了 挖 
掘 结 构 .挖掘 模型 挖掘 模型 查看 器 、 挖 掘 准确 性 图 表 和 挖掘 模型 预测 。 

挖掘 结构 确定 一 旦 确定 就 可 以 从 挖掘 结构 建立 挖掘 模型 ,并 对 模型 进行 计算 。 默 认 情 
况 下 ,模型 计算 根据 默认 的 参数 进行 ,如 最 小 支持 度 、. 最 小 置信 度 .最 大 最 小 项 集 尺寸 等 。 也 
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数据 挖 据 向 导 


完成 向 导 
为 控 据 结构 提供 名 称 ， 从 而 完成 数据 控 据 向 导 - 
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图 527 挖掘 模型 


可 以 在 模型 计算 之 前 根据 用 户 需要 或 者 数据 的 特点 对 这 些 参数 进行 修改 。 在 “挖掘 模型 选 
项 卡 中 ,依照 图 5-28 所 示 , 右 击 Microsoft Association Rules, 从 右键 菜单 选择 “设置 算法 参 
数 ” ,打开 图 5-29 所 示 的 参数 设置 对 话 框 。 

每 个 参数 都 已 经 设 定 了 默认 值 和 参数 的 可 用 范围 ,如 果 要 使 用 不 同 的 参数 值 , 在 参 
数 所 对 应 的 列 “ 值 "中 给 出 。 表 5-5 对 关联 规则 模型 中 设计 到 的 3 个 主要 指标 进行 简要 
说 明 。 
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图 528 设置 算法 参数 


添加 (A) MB B) [ 确定 ] 取消 帮助 0D) 


图 529 参数 设置 


表 5-5 关键 指标 说 明 


指标 名 称 含 4 

支持 度 对 项 集 形 成 有 影响 ,用 于 描述 项 集 出 现 频 度 。 
最 低 支 持 度 (Minimum_Support) 意 为 只 对 达到 指定 频 度 的 项 集 感 兴趣 ,如 果 指 定 

支持 度 (Support) 为 小 于 1 的 值 , 则 微软 关联 规则 认为 只 对 频 度 达到 指定 百分比 的 项 集 感 兴趣 。 
比如 0. 03 表示 项 集 支持 度 只 有 占 到 总 项 集 数 的 3% 才 能 形成 频繁 项 集 。 
最 大 支持 度 (Maximum_Support) 则 指定 了 项 集 出 现 频 度 的 上 限 
概率 对 规则 的 形成 有 影响 。 

一 条 规则 A 二 之 B 的 概率 定义 为 ， 

概率 (Probability》 Probability( A=>B)= Probability(B| A)= Support (A, B)/Support (A) 
指定 一 定 的 最 低 概 率 值 可 以 限制 形成 的 规则 数 
重要 性 对 项 集 和 规则 形成 均 有 影响 。 

重要 性 (Importance) | 定义 为 :Importance (A 一 >B) 一 logCP(B|A)/pCBlnot A)) 


如 果 该 值 为 0 表示 A 和 B 没 有 关联 性 , 正 值 表示 一 旦 拥有 A 则 再 拥有 B 的 概率 
会 增长 , 负 值 表示 一 旦 拥有 A 则 再 拥有 B 的 概率 会 降低 


本 例 使 用 默认 的 参数 。 单 击 * 取 消 ?按钮 回 到 主 界面 。 

至 此 ,就 完成 了 数据 挖掘 模型 的 定制 ,在 运行 模型 对 所 选 数据 进行 分 析 之 前 ,需要 首先 
对 项 目 进行 部 署 。 如 图 5-30 所 示 ,在 资源 管理 器 中 用 鼠标 点 击 项 目 名 称 ,打开 右键 菜单 , 选 
择 “ 部 署 ” 功 能 。 

图 5-31 显示 项 目 部 署 进 度 。 部 署 完成 之 后 会 在 状态 中 显示 完成 提示 。 

部 署 成 功 之 后 ,选择 . dsv 页 中 的 “挖掘 结构 ?选项 卡 , 单 击 挖掘 结构 名 称 , 在 右键 菜单 中 
选择 “处 理 挖掘 结构 和 所 有 模型 ", 如 图 5-32。 此 功能 是 运行 挖掘 模型 对 数据 进行 分 析 , 产 
生 挖 掘 结果 。 
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图 530 启动 部 署 图 531 显示 部 署 进度 图 532 处 理 挖掘 结构 和 所 有 模型 


在 图 5-33 中 选择 需要 处 理 的 挖掘 结构 , 单 击 “ 运 行 "按钮 ,开始 处 理 挖掘 模型 。 


图 533 选择 挖掘 结构 
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处 理 完 成 ,显示 图 5-34 处 理 成 功 画 面 。 


EICFES3 
日 艺 对 挖 是 结构 “eredit” 的 外 理 已 成 功 完成 。 
全 开始 时 间 : 2010-7-22 14:59:52 ; 结束 时 间 - 2010-7-22 14:59:55 ; 持续 时 间 - 0:00:03 
国芳 对 控 据 模型 “credit” 的 处 理 已 成 功 完成。 
国 t 记 对 维度 “credit “Wc- 客 户 代 码 "的 处 理 已 成 功 完成 


查看 详细 信息 WD 


图 534 处 理 成 功 


3. 查看 挖掘 结果 

模型 处 理 完成 之 后 ,可 以 通过 “挖掘 模型 查看 器 ”查看 挖掘 结果 。 通 过 挖掘 模型 查看 器 ， 
可 以 查看 生成 的 项 集 、 关 联 规则 和 项 目 之 间 的 依赖 
关系 。 

第 一 次 选择 查看 项 目 时 ,会 显示 一 个 加 载 模型 的 进 
度 画面 ,如 图 5-35 所 示 。 所 生成 的 项 集 数目 ,规则 数目 
不 同时 ,加 载 时 间 也 有 所 不 同 。 二 

加 载 完 成 ,就 自动 进入 项 集 查 看 页 面 ,图 5-36 是 在 默 图 535 加 载 挖掘 模型 进度 
认 条 件 下 显示 的 项 集 , 即 最 小 支持 度 为 1, 最 小 项 集 尺 寸 0 
的 情况 。 也 可 以 设置 最 小 支持 度 和 最 小 项 集 尺 寸 来 减少 显示 的 项 集 数量 ,如 图 5-37 所 示 。 


加 载 控 振 模型 credit 的 内 容 
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图 536 查看 项 集 
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537 设 定 支持 度 和 项 集 尺 十 


在 显示 框 上 单 击 “ 支 持 ” 或 “大 小 ”, 可 以 将 项 集 按 支持 度 大 小 或 者 长 度 排序 。 在 “筛选 项 
集 " 输 入 框 中 输入 项 目 名 称 ,可 以 只 显示 包含 该 项 目的 项 集 。* 显示 ”" 框 可 以 用 来 设 定 项 集 显 
示 的 形式 ,显示 属性 名 称 、 显 示 属性 值 或 者 显示 属性 值 和 属性 名 称 。“ 最 大 行 数 ” 设 置 在 显示 
框 中 显示 的 项 集 数目 。 

“规则 ”选项 卡 用 来 查看 产生 的 规则 ,如 图 5-38 所 示 。 同 样 也 可 以 通过 设 定 各 种 参数 来 
筛选 显示 的 规则 。“ 最 小 概率 " 即 最 小 置信 度 ,其 他 选项 功能 同 图 5-3 
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图 538 查看 规则 


图 中 规则 的 重要 性 与 表 5-5 中 所 列 的 重要 性 意义 相同 ,用 蓝 、 红 两 种 色 条 标记 正 、 负 两 
种 值 ,用 色 条 长 度 表示 数值 的 大 小 。 通 过 单 击 “ 重 要 性 ” 列 标题 ,可 以 将 规则 根据 重要 性 排 
序 , 用 户 可 以 根据 需要 选择 所 关心 的 规则 。 

如 其 中 “客户 状态 三 停产 , 客户 类 型 二 物资 一 二 损失 二 80602. 9491830784 一 
605683. 109173658” 的 概率 为 1 ,重要 性 1. 34001993897064 就 是 一 条 规则 。 表 示 客 户 状态 为 
“停产 ”客户 类 型 为 “物资 "的 客户 贷款 业务 中 ,银行 损失 在 “80602. 9491830784 一 
605683. 109173658” 之 间 的 可 能 性 非常 大 。 

“依赖 关系 网 络 ?显示 项 目 之 间 的 依赖 关系 ,如 图 5-39 所 示 。 当 用 鼠标 选中 一 个 结 点 ， 
与 其 相关 的 结 点 将 以 特殊 颜色 显示 ;左边 的 调节 按钮 可 以 调节 显示 的 依赖 关系 的 强度 ;将 鼠 
标 指向 一 个 结 点 ,将 会 显示 该 结 点 的 名 称 。 
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图 539 显示 依赖 关系 


图 5-39 中 的 “查找 结 点 ”按钮 (望远镜 图 标 ) 可 以 帮助 查找 感 兴趣 的 结 点 , 当 结 点 较 多 不 


图 540 查找 感 兴趣 的 结 点 
“ 116% 


容易 找到 某 个 结 点 时 ,在 输入 框 中 输入 结 点 名 称 ,会 
以 特殊 颜色 显示 包含 该 结 点 的 依赖 关系 网 络 。 单 击 
“查找 结 点 "按钮 (望远镜 图 标 ) 打 开 图 5-40 所 示 的 对 
话 框 ,从 中 选择 感 兴趣 的 结 点 ,如 “房地产 开发 ", 确 
定之 后 回 到 关系 网 络 ( 图 5-41) ,以 “房地产 开发 ”为 
当前 结 点 的 所 有 关系 会 用 彩色 显示 。 

“挖掘 准确 性 图 表 ” 以 “提升 图 "或 者 “利润 图 ” 
形式 对 挖掘 结果 的 准确 性 给 出 描述 。 首 先 在 
图 5-42 所 示 的 “ 列 映射 "选项 卡 中 选择 挖掘 模型 
和 输入 表 。 

在 实际 应 用 中 ,这 里 选择 的 事例 表 应 该 与 模型 
训练 时 所 用 的 数据 不 同 ,是 用 来 验证 模型 的 准确 
性 的 。 
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图 541 ”房地产 开发 " 的 关系 网 络 
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图 542 选择 事例 表 


选 定 事例 表 之 后 ,在 界面 下 方 选择 可 预测 列 , 如 图 5-43 所 示 。 再 进入 “提升 图 ”选项 卡 ， 
将 显示 对 选 定 的 可 预测 列 的 预测 准确 性 曲线 ,如 图 5-44 所 示 。 


可 以 通过 选取 * 可 预测 的 列 名 ”, 查 看 任意 一 个 可 预测 列 的 预测 准 性 图 表 。 
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图 544 显示 提升 图 
提升 图 中 蓝 色 曲线 表示 理想 模型 ,红色 曲线 表示 模型 credit。 右 侧 的 挖掘 图 例 中 显示 
模型 的 分 数 , 即 准确 度 。 


另 一 种 显示 模型 准确 性 的 工具 是 “分 类 甜 阵 ”。 与 查看 提升 图 一 样 , 首 先 选择 好 可 预测 
列 , 然 后 进入 “分 类 和 矩阵? 页面 ,将 显示 该 列 预测 准确 度 的 分 类 和 矩阵 ,如 图 5-45 所 示 。 
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图 545 显示 分 类 和 矩阵 


分 类 和 矩阵 中 的 列 对 应 实际 值 , 行 对 应 预测 值 。 如 图 中 所 示 , 列 “关注 ”的 值 被 分 为 
“一 715449. 8”、“715449. 8 一 13466926. 9”、“13466926. 9 一 22038208. 5” 等 5 个 段 ,这 些 划 分 
是 模型 在 训练 过 程 中 自动 实现 的 ,无 须 用 户 干预 。 行 列 交 叉 处 的 单元 格 值 表示 满足 该 实际 
值 和 预测 值 的 记录 数目 。 如 实际 值 二 715449. 8, 预 测 值 二 715449. 8 的 记录 数目 为 2990; 实 
际 值 二 715449. 8, 预 测 值 E (715449. 8 一 13466926. 9] 的 记录 数目 为 1, 通 过 观察 分 类 和 矩阵， 
可 以 发 现 模型 对 该 字段 的 预测 准确 度 。 

模型 产生 之 后 ,用 户 可 以 对 产生 的 规则 进行 筛选 ,通过 针对 性 的 市 场 调 查 .专家 评估 等 
方式 确定 哪些 规则 是 真正 可 用 的 ,以 便 在 经 营 决策 中 使 用 。 


小 结 


本 章 介绍 了 数据 挖掘 中 的 关联 规则 挖掘 方法 ,包括 关联 规则 的 概念 起源, 介绍 了 关联 
规则 挖掘 的 两 个 子 问 题 一 一 发 现 频繁 项 集 和 产生 规则 。 重 点 介绍 了 发 现 频繁 项 集 这 一 任务 
中 ,产生 候选 项 集 和 不 产生 候选 项 集 两 类 重要 方法 。 详细 描 述 了 Apriori 算法 和 
FP-Growth 算法 的 原理 和 计算 过 程 ,给 出 了 算法 的 伪 代 码 描 述 ,并 且 通 过 实例 演示 了 算法 
的 计算 过 程 。 最 后 应 用 银行 贷款 业务 数据 库 ,用 SQL Server 2005 提供 的 数据 挖 挖掘 工具 
进 关联 规则 挖掘 ,文中 介绍 了 SQL Server 2005 的 Analysis Services 的 操作 方法 和 整个 挖 
掘 过 程 。 

当 挖 掘 问题 是 希望 根据 事物 的 某 些 属性 预测 可 能 发 生 的 情况 , 即 发 现形 如 A 且 B 的 知 
识 时 ,可 以 采用 关联 规则 挖掘 方法 。 


“ 19 过 


习题 


1. 说 明 关 联 规则 挖掘 的 目的 和 作用 。 

2. 简要 说 明 在 频繁 模式 发 现 技术 中 ,产生 候选 项 集 和 不 产生 候选 项 集 两 种 技术 各 自 的 
特点 和 优 缺 点 。 

3. 图 5-1 所 示 的 数据 库 , 如 果 分 别 设 定 最 小 支持 度 ;二 10% 和 s 二 40%, 和 置信 和 度 c= 
70% ,计算 该 示例 数据 库 中 的 频繁 项 集 和 规则 。 

4. 根据 图 5-3 所 示 的 FP-tree, 找 出 以 14,13, 了 1,12 为 后 缀 的 频繁 模式 。 

5. 根据 图 5-3 所 示 的 FP-tree, 找 出 其 中 所 有 的 关联 规则 及 他 们 的 置信 和 度 。 

6. 练习 使 用 SQL Server 2005 的 关联 规则 挖掘 模型 。 
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第 6 音 决策 树 方法 


决策 树 (decision tree) 方 法 (也 称 为 判定 树 算 法 ) 是 最 受 欢 迎 的 数据 挖掘 技术 之 一 ,主要 
用 于 分 类 和 预测 。 决 策 树 学 习 是 以 样本 为 基础 的 归纳 学 习 方 法 ,将 决策 树 转换 成 分 类 规则 
比较 容易 。 决 策 树 的 表现 形式 类 似 于 流程 图 的 树 结构 ,在 决策 树 的 内 部 结 点 进行 属性 测试 ， 
并 根据 属性 值 判断 由 该 结 点 引出 的 分 支 ,在 叶 结 点 得 到 结论 。 内 部 结 点 是 属性 或 属性 的 集 
合 , 叶 结 点 代表 样本 所 属 的 类 或 类 分 布 。 基 于 决策 树 的 学 习 算 法 在 学 习 过 程 中 不 需要 用 户 
了 解 很 多 背景 知识 ,只 要 训练 样本 能 够 用 “属性 - 值 ”的 方式 表述 ,就 可 以 使 用 该 算法 来 学 习 。 

决策 树 学 习 的 基本 算法 是 贪心 算法 ,采用 自 项 向 下 的 递归 方式 构造 决策 树 。Hunt 等 
人 于 1966 年 提出 的 概念 学 习 系 统 (conception learning system,CLS) 是 最 早 的 决策 树 算法 ， 
以 后 的 许多 决策 树 算法 都 是 对 CLS 算法 的 改进 或 由 CLS 衍生 而 来 。 

澳大利亚 悉尼 大 学 的 Ross Quinlan 于 1979 年 提出 了 著名 的 ID3 (information 
decision) 方 法 。1993 年 ,Quinlan 提出 了 以 ID3 为 蓝本 的 C4.5 算法 ,可 以 处 理 数值 属性 、 缺 
失 值 和 噪声 数据 ,是 一 个 能 处 理 连 续 属性 的 算法 。 其 他 决策 树 方法 还 有 ID3 的 增 量 版 本 
ID4 和 ID5 等 。 本 章 主要 介绍 ID3 和 C4. 5 算法 。 


6.1 信息 论 的 基本 原理 


决策 树 方法 是 基于 信息 论 的 数据 挖掘 方法 中 的 一 种 ,为 便于 理解 , 下面 先 来 介绍 信息 论 
的 基本 原理 。 


6.1.1 信息 论 原 理 


信息 论 是 C. E. Shannon 为 解决 信息 传递 (通信 ?过 程 问题 而 建立 的 理论 ,也 称 为 统计 通 
信和 理论 。 一 个 传递 信息 的 系统 是 由 发 送 端 ( 信 源 )、 接 收 端 ( 信 宿 ) 以 及 连接 两 者 的 通道 ( 信 
道 ) 三 者 组 成 。 信 息 论 把 通信 过 程 看 作 是 在 随机 干扰 的 环境 中 传递 信息 的 过 程 。 在 这 个 通 
信 模 型 中 , 信 源 和 和 干扰 (噪声 ) 都 被 理解 为 某 种 随机 过 程 或 随机 序列 。 因 此 ,在 进行 实际 的 通 
信之 前 , 信 宿 不 可 能 确切 了 解 信 源 究 竟 会 发 出 什么 样 的 具体 信息 ,不 可 能 判断 信 源 会 处 于 什 
么 样 的 状态 ,这 种 情形 就 称 为 信 宿 对 于 信 源 状态 具有 不 确定 性 ,而且 这 种 不 确定 性 是 存在 于 
通信 之 前 的 ,因而 又 叫做 先 验 不 确定 性 。 

在 进行 通信 之 后 , 信 宿 收 到 了 信 源 发 来 的 信息 ,这 种 先 验 不 确定 性 才 会 被 消除 或 者 被 减 
少 。 如 果 干 扰 很 少 ,不 会 对 传递 的 信息 产生 任何 可 察觉 的 影响 , 信 源 发 出 的 信息 能 够 被 信 宿 
全 部 收 到 ,在 这 种 情况 下 , 信 宿 的 先 验 不 确定 性 就 会 被 完全 消除 。 但 是 ,在 一 般 情况 下 ,干扰 
总 会 对 信 源 发 出 的 信息 造成 某 种 破坏 ,使 信 宿 收 到 的 信息 不 完全 。 因 此 , 先 验 不 确定 性 不 能 
全 部 被 消除 ,只 能 部 分 地 消除 。 换 句 话说 ,通信 结束 之 后 , 信 宿 仍然 具有 一 定 程度 的 不 确定 
性 ,这 就 是 后 验 不 确定 性 。 显 然 ,后 验 不 确定 性 总 要 小 于 先 验 不 确定 性 ,不 可 能 大 于 先 验 不 
确定 性 。 


“lls 


如 果 后 验 不 确定 性 的 大 小 刚好 等 于 先 验 不 确定 性 的 大 小 ,这 就 表示 信 宿 根本 没有 收 到 
信息 ;如 果 后 验 不 确定 性 等 于 零 , 这 就 表示 信 宿 收 到 了 全 部 信息 。 可 见 信息 是 用 来 消除 不 确 
定性 (随机 ) 的 度量 ,信息 量 的 大 小 由 所 消除 的 不 确定 性 的 大 小 来 衡量 。 


6.1.2 互信 息 的 计算 


1. 定义 

(1) 设 5 为 训练 集 , 训 练 集中 每 个 训练 样本 及 个 特征 (属性 ) ,表示 为 (Ai,A,,…， 
A,) ,1S| 表 示 样 本 总 数 。 

(2) S 中 有 Un ,Us 两 类 。|U, | 表示 U; 类 例子 数 。 

(3) 特征 A 处 有 m 个 取 值 ,分 别 为 (Vi ,Vs，…,V,)。 


2. 出 现 概率 
U; 类 出 现 概率 为 
P(U;) =|U;|/1S| (6-1) 
自然 有 
2 
PV)=1 (6-2) 
这 1 
3. 条 件 概率 
U; 类 中 在 特征 A 处 , 取 值 V; 的 样本 集合 ww 的 条 件 概率 为 
PCV |U) =| Vs 1/1U.,| (6-3) 
自然 有 
六 pv， 和 (6-4) 
4. 子 集 概率 
在 特征 A 处 , 取 值 V; 的 样本 集合 的 概率 为 
P(V)) =|V,1/1sS| (6-5) 
自然 有 
Spov,) | (6-6) 
5. 子 集 条 件 概率 
在 特征 A 处 取 值 V; 的 例子 ,属于 U; 类 的 例子 集合 Us 的 条 件 概率 为 
PU | Vy =|1Us [Vl (6-7) 
自然 有 
DP IV Y= 1 (6-8) 
6. 信息 灶 


(1) 消息 传递 系统 由 消息 的 信 源 、 信 宿 以 及 信道 组 成 。 
(2) 消息 (符号 )UiGi 一 1.2,…:9g) 的 发 生 概率 P(U;) 组 成 信 源 数学 模型 (样本 空间 或 概 
率 空间 ) , 即 


(6-9) 


wp-| Un Us … | 


CE POUSY = PAE) 
«22 4 


(3) 自信 息 。 消 息 U; 发 生 后 所 含有 的 信息 量 。 它 反映 了 消息 U; 发 生前 的 不 确定 性 ， 
定义 为 


I(U;) = — log:P (U;) (6-10) 


log: pers = 
当 &==2 时 ,所 得 的 信息 量 单位 为 bit( 位 )。 
(4) 信息 炉 。 信 息 炉 是 信 源 输出 后 ,每 个 消息 所 提供 的 平均 信息 量 , 也 反映 了 信 源 输出 
前 的 平均 确定 性 。 定 义 为 


H(U) = SP )log: 一 一 Bey = — SP. )logiP (U,) (6-1 


信息 箭 CD) 是 信 源 输出 前 的 平均 不 确定 性 ， 也 称 为 先 验 彤 。 其 性 质 如 下 : 

g@ HU)=0 时 ,说 明 只 存在 着 唯一 的 可 能 性 ,不 存在 不 确定 性 。 

如 果 种 可 能 的 发 生 都 有 相同 的 概率 , 即 所 有 的 U; 有 P(U;)= 二 1/n,H(U) 达 到 最 大 值 
logn, 系 统 的 不 确定 性 最 大 。 

@ P(U;) 互 相 接 近 ,H(U) 就 大 ;P(U;) 相 差 大 ,HH(D) 就 小 。 

如 果 信 道中 无 干扰 ,信道 输出 符号 与 输入 符号 一 一 对 应 ,那么 接收 到 传送 过 来 的 符号 后 
就 消除 了 对 发 送 符 号 的 先 验 不 确定 性 。 

7. 互信 息 

(1) 后 验 炉 和 条 件 粹 。 一 般 信道 中 有 干扰 存在 ,接收 到 符号 V 后 对 发 送 的 是 什么 符号 
仍 有 不 确定 性 。 那 么 ,怎样 来 度量 接收 到 V 后 ,关于 UU 的 不 确定 性 呢 ? 当 没 有 接收 到 输出 
符号 V 时 ,已 知 输入 符号 U 的 概率 分 布 为 PC(U) ,而 当 接 收 到 输出 符号 V=V; 后 ,输入 符号 
的 概率 分 布 发 生 了 变化 , 变 成 后 验 概率 分 布 P(UIV;)。 那 么 接收 到 输出 符号 V=V,) 后 , 关 
于 UU 的 平均 不 确定 性 为 


H(U |V,) = SP | W )og pg Tv (6-12) 


这 是 接收 到 输出 符号 V=V; 后 关于 U 的 后 验 炳 。 后 验 炉 是 当 信道 接收 端 接 收 到 输出 
符号 V=Vi 后 ,关于 输入 符号 U 的 信息 度量 , 即 


到 1 
H(UIV)= SPWV) YP | Vlog pe V) (6-13) 


后 验 炉 在 输出 符号 集 V 的 范围 内 是 个 随机 量 , 对 后 验 人 在 输出 符号 集 V 中 求 期 望 ,得 
到 条 件 炉 。 

这 个 条 件 焙 称 为 信道 疑义 度 。 它 表示 在 信 宿 收 到 全 部 输出 符号 V 后 ,对 于 信 源 的 符号 
集 U 尚 存在 不 确定 性 (疑义 ) ,对 U 集 尚 存 在 的 不 确定 性 是 由 干扰 引起 的 。 如 果 是 一 一 对 应 
信道 ,那么 接 到 符号 集 V 后 ,对 UU 集 的 不 确定 性 完全 消除 , 则 信道 疑义 度 H(UIV)=0。 

从 上 面 分 析 可 知 : 条 件 箭 小 于 无 条 件 箭 , 即 H(UIV) 二 HC(U)。 说 明 收 到 符号 集 V 的 
所 有 符号 后 ,关于 输入 符号 U 的 平均 不 确定 性 减 小 了 。 即 总 能 消除 一 些 关 于 输入 端 U 的 不 
确定 性 ,从 而 获得 了 一 些 信息 。 

(2) 平均 互信 息 。H(U) 代 表 接 收 到 符号 集 V 以 前 关于 输入 符号 集 U 的 平均 不 确定 
性 ,而 互 (UIV) 代 表 收 到 符号 集 V 后 关于 输入 符号 U 的 平均 不 确定 性 。 可 见 ,通过 信道 传 
输 消 除了 一 些 不 确定 性 ,获得 了 一 定 的 信息 。 定 义 为 

I(U,V) = HCO) — HU IV) (6-14) 
.123 。 


I(U,V) 称 为 U 和 V 之 间 的 平均 互信 息 , 它 代表 接收 到 符号 集 V 后 获得 的 关于 UU 的 信 
息 量 。 

可 见 , 炉 互 (U)、H(UIV) 只 是 平均 不 确定 性 的 描述 。 炉 差 了 H(U) 一 HH(U1IV) 是 不 确定 
性 的 消除 , 即 互信 息 才 是 接收 端 所 获得 的 信息 。 


6.2 常用 决策 树 算法 


6.2.1 ID3 算法 


1. 基本 思想 

在 实体 世界 中 ,每 个 实体 用 多 个 特征 来 描述 。 每 个 特征 限于 在 一 个 离散 集中 取 互 斥 的 值 。 
例如 , 设 实体 是 某 天 早晨 ,分 类 任务 是 判断 是 否 适合 打 网 球 。 实 体 的 特征 由 4 个 属性 标识 : 

天 气 : 取 值 为 哺 、 多 云雨 ; 

气温 : 取 值 为 冷 . 适 中. 热 ; 

湿度 : 取 值 为 高 .正常 ; 

风力 : 取 值 为 有 风 无 风 。 

实体 ( 即 某 天 早晨 ) 特 征 描 述 为 : 多 云 , 冷 ,湿度 正常 ,无 风 。 

它 是 否 适合 打 网 球 呢 ?” 要 解决 这 个 问题 ,需要 用 某 个 规则 来 判定 ,这 个 规则 来 自 于 大 量 
的 实际 例子 ,从 例子 中 总 结 出 规则 ,有 了 规则 就 可 以 对 任何 实体 做 出 判定 。 

每 个 实体 在 现实 世界 中 属于 不 同 的 类 别 。 为 简单 起 见 , 假 定 有 两 个 类 别 P 和 N, 分 别 
代表 “适合 "和 “不 适合 ”, 在 这 两 个 类 别 的 归纳 任务 中 ,P 类 和 N 类 的 实体 分 别称 为 概念 的 
正 例 和 反例 。 将 一 些 已 知 的 正 例 和 反例 放 在 一 起 便 得 到 训练 集 。 

表 6-1 给 出 一 个 训练 集 。 由 ID3 算法 可 得 出 一 棵 正确 分 类 训练 集中 每 个 实体 的 决策 
树 , 如 图 6-1 所 示 。 


表 6-1 ID3 算法 训练 样本 集 


属 性 
编号 类 别 
尖 物 气温 湿度 风力 
1 晴 热 高 无 风 N 
2 晴 热 适中 无 风 N 
3 多 云 热 高 无 风 RB 
4 雨 适中 高 无 风 P 
5 雨 冷 正常 无 风 区 
6 雨 冷 正常 有 风 N 
7 多 云 冷 正常 有 风 ” 
8 晴 适中 高 无 风 N 
9 晴 冷 正常 无 风 四 
10 雨 适中 正常 无 风 FP 
11 晴 适中 正常 有 风 区 
12 多 云 适中 高 有 风 作 
13 多 云 热 正常 无 风 
14 雨 适中 高 有 风 N 


风力 


图 6-1 ID3 决 策 树 


决策 树叶 子 为 类 别名 , 即 P 或 N。 其 他 结 点 由 实体 的 特征 组 成 ,每 个 特征 的 不 同 取 值 
对 应 不 同 分 支 。 若 要 对 一 个 实体 分 类 ,从 树 根 开始 进行 测试 , 按 特 征 的 取 值 分 支 向 下 进入 下 
层 结 点 ,对 该 结 点 进行 测试 ,过 程 一 直 进行 到 叶 结 点 ,实体 被 判 为 属于 该 叶 结 点 所 标记 的 类 
别 。 现 用 图 6-1 来 判定 本 节 开 始 处 的 例子 ,得 该 实体 的 类 别 为 P 类 。ID3 就 是 要 从 表 6-1 的 


训练 集 构造 图 6-1 这 样 的 决策 树 。 


实际 上 ,能 正确 分 类 训练 集 的 决策 树 不 只 一 棵 ,Quinlan 的 ID3 算法 能 得 出 结 点 最 少 的 


决策 树 。 
2. 主 算 法 


(1) 从 训练 集中 随机 选择 一 个 既 含 正 例 (图 6-1 中 类 别 P) 又 含 反 例 ( 图 6-1 中 类 别 N) 


的 子 集 ( 称 为 “窗口 ”); 


(2) 用 “建树 算法 ”对 当前 窗口 形成 一 棵 决策 树 ; 

(3) 对 训练 集 ( 窗 口 除外 ) 中 例子 用 所 得 决策 树 进行 类 别 判定 , 找 出 错 判 的 例子 ; 

(4) 若 存 在 错 判 的 例子 ,把 它们 插入 窗口 , 转 (2) ,否则 结束 。 

主 算法 流程 如 图 6-2 所 示 。 其 中 PE、NE 分 别 表示 正 例 集 和 反例 集 ,它们 共同 组 成 训练 
集 。PE'、PE”" 和 NE'、NE” 分 别 表 示 正 例 集 和 反例 集 的 子 集 。 


训练 集 
PE 、NE 


取 子 集 


一 | 


一 | 


建 窗口 


窗口 
PE'、NE/' 


扩展 窗口 
PE'=PE'+PE” 
NE'=NE'+NE” 


是 


了 
生成 
决策 树 
1 


测试 
PE、NE 


存在 判断 的 PE” 
和 NE” 吗 
否 
此 决策 树 是 
最 后 结果 


图 6-2 ID3 算 法 流程 
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主 算法 中 每 迭代 循环 一 次 ,生成 的 决策 树 将 会 不 相同 。 
3. 建树 算法 
(1) 对 当前 例子 集合 ,计算 各 特征 的 互信 息 ; 
(2) 选择 互信 息 最 大 的 特征 At; 
(3) 把 在 A 处 取 值 相同 的 例子 归于 同一 子 集 ,A 取 几 个 值 就 得 几 个 子 集 ; 
(4) 对 既 含 正 例 又 含 反 例 的 子 集 ,递归 调用 建树 算法 ; 
(5) 若 子 集 仅 含 正 例 或 反例 ,对 应 分 枝 上 标 P 或 N, 返 回调 用 处 。 
4. 实例 计算 
对 于 表 6-1 所 示 的 分 类 问题 ,采用 ID3 算法 构建 决策 树 的 方法 如 下 。 
(1) 信息 入 的 计算 。 信 息 灶 的 计算 公式 参见 式 (6-5) 和 式 (6-11) ,对 于 9 个 正 例 和 5 个 
反例 ,有 
P(U:) = 9/14, P(U:) = 5/14 
H(U) = (9/14)1b(14/9) 十 (5/14)lb(14/5) = 0. 94 
(2) 条 件 业 计 算 。 条 件 焙 的 计算 公式 参见 式 (6-7) 和 式 (6-13) 。 
当 Al 二 天 气 时 , 取 值 Vi== 晴 ,V,== 多 云 ,V3== 雨 。 在 A, 处 取 值 “ 晴 ” 的 例子 5 个 , 取 值 
“多 云 ” 的 例子 4 个 , 取 值 * 雨 ”的 例子 5 个 , 故 
P(Vi) = 5/14, P(V:) = 4/14, P(V;) = 5/14 
取 值 为 “ 晴 ?的 5 个 例子 中 有 2 个 正 例 ,3 个 反例 , 故 
P(U TV) =2/5，P(U: | Vi) = 3/5 
同 理 有 
PO | Ve= /4 PO WS=D0 
PU [WY =2/5s POUs | Vi)=3/5 
H(U |V) =(5/14)((2/5)1b(5/2) 十 (3/5)lb(5/3)) 
十 (4/14)((4/4lb(4/4) 十 0) 
十 (5/14)((2/5)lb(5/2) 十 3/5lb(5/3)) = 0. 694 
(3) 互信 息 计算 。 当 对 A: = 天 气 时 ,有 
I( 天 气 ) = H(U) 一 H(U | V) = 0.94 一 0.694 一 0.246 


类 似 可 得 
I( 气 温 ) 一 0. 029 
(湿度) = 0. 151 
I( 风 力 ) == 0.048 
(4) 建 决策 树 的 树 根 和 分 支 。ID3 算法 将 选择 互信 息 最 大 的 特征 “天 气 ” 作 为 树 根 ,对 
14 个 样本 根据 “天气” 的 3 个 取 值 进行 划分 ,3 个 分 支 对 应 3 个 子 集 ,分 别 是 
B= 2070 By = {9073510513} B= (50710714 
其 中 ,Ps 中 的 例子 全 部 属于 尸 类 ,因此 对 应 分 枝 标志 为 已 ,其 余 两 个 子 集 既 含有 正 例 又 含有 
反例 ,将 递归 调用 建树 算法 。 
(5) 递归 建树 。 分 别 对 F 和 F 子 集 利用 ID3 算法 ,在 每 个 子 集中 对 各 特征 ( 仍 为 4 个 
特征 ) 求 互信 息 。 
@ 所 中 的 天 气 全 取 “ 晴 ” 值 , 则 HH(U)==H(UIV), 有 I(UIV)==0, 在 余下 3 个 特征 中 求 
。 126 。 


出 “湿度 ”互信 息 最 大 ,以 它 为 该 分 支 的 根 结 点 ,再 向 下 分 支 。“ 湿 度 ” 取 “高 ”的 例子 全 为 N 
类 ,该 分 支 标记 为 N; 取 值 “正常 ”的 例子 全 为 P 类 ,该 分 支 标记 为 P。 

@ 在 F, 中 ,对 4 个 特征 求 互 信息 ,得 到 “风力 ”特征 互信 息 最 大 , 则 以 它 为 该 分 支 根 结 
点 ,再 向 下 分 支 “ 风 力 ” 取 “有 风 ” 时 全 为 N 类 ,该 分 支 标记 为 N; 取 “无 风 ” 时 全 为 P 类 ,该 分 
支 标 记 为 P。 

这 样 就 得 到 了 图 6-1 的 决策 树 。 


6.2.2 C4.5 算法 


C4.5 算法 是 从 ID3 算法 演变 而 来 ,除了 拥有 ID3 算法 的 功能 外 ,C4.5 算法 引入 了 新 的 
方法 并 增加 了 新 的 功能 。 例 如 用 信息 增益 比例 的 概念 ;合并 具有 联系 属性 的 值 ; 可 以 处 理 缺 
少 属性 值 的 训练 样本 ;k 交叉 验证 ;规则 的 产生 方式 等 。 

1. 信息 增益 比例 的 概念 

信息 增益 比例 是 在 信息 概念 的 基础 上 发 展 起 来 的 ,一 个 属性 的 信息 增益 的 比例 用 如 下 
公式 给 出 。 


i 。 _ Gain(A) _ 
GainRation(A) = SplitICA) (6-15) 
其 中 ， 
SplitI(A) = 一 2) pjlb(p,) (6-16) 
j=1 


这 里 设置 属性 A 具有 w 个 不 同 值 {a1 ,as，…,a,}。 可 以 用 属性 A 将 S 划分 为 v 个 子 集 
{Si1,S;,…,S,), 其 中 S 包含 S 中 这 样 一 些 样 本 : 它们 在 A 上 具有 值 a;。 假 如 以 属性 A 的 
值 为 基准 ,对 样本 进行 分 割 ,SplitI(A) 就 是 前 面 炉 的 概念 。 

2. 连续 属性 值 的 处 理 

ID3 算法 最 初 假定 属性 值 是 离散 的 ,但 在 实际 环境 中 ,很 多 属性 是 连续 型 的 。 对 于 连续 
属性 值 ,C4. 5 处 理 过 程 如 下 : 

(1) 根据 属性 值 对 数据 集 排列 ; 

(2) 用 不 同 的 冰 值 将 数据 集 动 态 地 进行 划分 ; 

(3) 当 输出 改变 时 确定 一 个 阔 值 ; 

(4) 取 两 个 实际 值 中 的 中 点 作为 一 个 净值 ; 

(5) 取 两 个 划分 ,所 有 样本 都 在 这 两 个 划分 中 ; 

(6) 得 到 所 有 可 能 的 阔 值 .增益 及 增益 比 ; 

(7) 每 一 个 属性 会 变 为 两 个 取 值 , 即 小 于 阅 值 或 大 于 等 于 阅 值 。 

针对 属性 为 连续 数值 的 情况 ,比如 属性 A 有 连续 的 属性 值 , 则 在 训练 集中 可 以 按 升序 
方式 排列 wm ,az ,…',an (ma 为 训练 样本 的 个 数 )。 如 果 A 共有 nn 种 取 值 , 则 对 每 个 取 值 
vj(j 王 1,2,…,n) 将 所 有 的 记录 进行 划分 。 这 些 记录 被 划分 成 两 个 部 分 : 一 部 分 落 入 在 v 
的 范围 内 ,而 另 一 部 分 则 大 于 v;。 针 对 每 个 划分 分 别 计算 增益 比率 ,选择 增益 最 大 的 划分 
来 对 相应 的 属性 进行 离散 化 。 

3. 未 知 属性 值 的 处 理 

C4.5 处 理 的 样本 中 可 以 含有 未 知 属性 值 : 其 处 理 方法 是 用 最 常用 的 值 替 代 , 或 者 是 将 
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最 常用 的 值 分 在 同一 类 中 。 具 体 采用 概率 的 方法 ,依据 属性 已 知 的 值 ,对 属性 的 每 一 个 取 值 
赋予 一 个 概率 。 

4. 规则 的 产生 

一 旦 树 建立 ,就 可 以 把 树 转 化 成 fthen 规则 。 规 则 存储 于 一 个 二 维 数组 中 ,每 一 行 代 
表 树 中 的 一 个 规则 , 即 从 根 到 叶 之 间 的 一 个 路 径 , 表 中 的 每 列 存放 着 树 中 的 一 个 结 点 。 

5. 案例 计算 

下 面 以 实际 的 例子 ,详细 地 说 明 C4. 5 分 类 实现 的 过 程 。 所 采用 的 数据 集 如 表 6-2 所 
示 , 包 含 5 个 属性 : 天 气 ( 离 散 属性 ) ,气温 (离散 属性 ) ,湿度 (连续 属性 ) ,风力 (离散 属性 )， 
是 否 适 合 打 网 球 ( 类 别 属性 ) 。 


表 6-2 C4.5 算法 训练 样本 集 


属 性 
编号 类 别 
天 气 气温 湿度 风 
1 晴 热 85 无 风 N 
2 晴 热 90 无 风 N 
3 多 云 热 78 无 风 P 
4 雨 适中 96 无 风 P 
5 雨 冷 80 无 风 RB 
6 雨 冷 70 有 风 N 
7 多 云 冷 65 有 风 及 
8 晴 适中 95 无 风 N 
9 晴 冷 70 无 风 Pp 
10 雨 适中 80 无 风 P 
11 晴 适中 70 有 风 P 
12 多 云 适中 90 有 风 P 
13 多 云 热 75 无 风 P 
14 雨 适中 80 有 风 N 


首先 对 属性 “湿度 ”进行 离散 化 ,针对 上 面 的 训练 集合 ,通过 检测 每 个 划分 确定 最 好 的 划 
分 在 75 处 ,因为 在 75 处 落 在 两 边 的 个 数 基 本 相等 , 则 这 个 属性 的 范围 就 变 为 {二 75, 宝 75)。 
然后 计算 类 别 属性 分 类 的 信息 炳 : 
类 别 中 出 现 9 个 P 类 和 5 个 NN 类 ,因此 有 
P(S) = 9/14, P(S:) = 5/14 
I(s1,s2) = (9/14)1b(14/9) + (5/14)1lb(14/5) = 0. 940 
同 理 计算 天气” 属性 的 SplitI 值得 到 
SplitI (天气 ) = 一 (5/14)1b(5/14) 一 (4/14)1b(4/14) 一 (5/14)1b(5/14) 一 1.577 
对 于 决策 类 别 , 天 气 属性 每 个 取 值 的 条 件 炉 为 
(1) 天 气 取 值 为 “上 晴 ” ,su 一 2,s 二 3,T(sn ,sa) 二 0.9707。 
(2) 天 气 取 值 为 “多 云 ?,stz 一 4,szz 一 0,T(sizyszz) 一 0。 
(3) 天 气 取 值 为 “ 雨 ”",sis 王 3,szs 一 2,T(sis ,szs) 一 0.9707 。 
因此 ,得 到 天 气 属性 的 条 件 炉 为 
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五 (类 别 | 天 气 ) 一 吝 X0.9707 十 0 十 总 X0.9707 = 0. 6933 


对 应 的 信息 增益 为 
Gain( 天 气 ) = 了 H( 类 别 ) 一 五 ( 类 别 | 天 气 ) = 0. 940 一 0.6933 二 0. 2467 
最 后 得 到 互信 息 为 


0. 2467 


GainRatio( 天 气 ) 一 1 577 


= 0. 156 


同 理 , 可 以 计算 出 
GainRatio( 风 力 ) 二 0.049 
GainRatio( 温 度 ) == 0. 0248 
GainRatio( 湿 度 ) = 0. 0483 
选 出 最 大 的 GainRatio( 天 气 ) 二 0.156。 根 据 天 气 的 取 值 ,可 以 得 到 3 个 分 支 ,同时 数据 
集 被 划分 成 3 个 子 集 , 如 图 6-3 所 示 。 


天 气 
7, 晴 | 多 云 十 
温度 湿度 风 类别 | | 温度 湿度 ” 风 类别 | | 温度 湿度 ” 风 类 别 
热 ”>75 无 适合 || 热 ”>75 无 适 台 || 适 中 >75 无 适合 
热 ”>75 有 不 适合 || 冷 ”75 有 适合 || 冷 ”>75 无 适合 
适中 >75 无 适合 | | 适中 >75 有 ”适合 || 冷 。 75 有 不 适合 
冷 75 无 适合 || 热 75 无 适合 || 适 中 >75 无 适合 
适中 >75 ”有 ”不 适合 
图 6-3 天 气 结 点 及 其 分 支 
下 面 说 明 各 个 子 树 的 生成 过 程 : 


对 于 第 一 个 子 树 T .GainRatio( 湿 度 ) = 二 1,GainRatio( 温 度 ) = 二 0. 0244,GainRatio( 风 ) 一 
0.0206。 选 择 “ 湿 度 ” 作 为 分 类 属性 ,根据 “湿度 ”的 两 个 取 值 生成 两 个 分 支 , 得 到 两 个 叶 结 点 。 

第 二 个 子 树 Ts 中 的 所 有 样本 都 属于 同一 类 (类 别 = 适 合 ) ,所 以 直接 得 到 叶子 结 点 。 

对 于 第 三 个 子 树 T; ,GainRatio( 湿 度 ) 二 0. 446,GainRatio( 温 度 ) 王 0. 0206,GainRatio 
(风力 ) 二 1。 选 择 “ 风 力 ” 成 分 支 , 得 到 两 个 叶 结 点 。 图 6-4 给 出 了 最 终生 成 的 决策 树 。 


图 6-4 C45 算 法 形成 的 决策 树 


“2 


6.3 决策 树 剪 枝 


在 创建 决策 树 时 ,由 于 训练 样本 太 少 或 数据 中 存在 噪声 和 孤立 点 ,许多 分 支 反 映 的 是 训 
练 数据 中 的 异常 现象 ,建立 的 决策 树 会 过 度 拟 合 训练 样本 集 。 过 度 拟 合 是 指 推出 过 多 与 训 
练 数据 集 相 一 致 的 假设 ,反而 不 具有 很 好 的 预测 性 能 。 剪 枝 是 一 种 克服 噪声 的 技术 ,同时 它 
也 能 使 树 得 到 简化 而 变 得 更 容易 理解 。 通 常 , 这 种 方法 使 用 统计 度量 , 剪 去 不 可 靠 的 分 支 ， 
这 将 导致 较 快 的 分 类 ,提高 树 独 立 于 测试 数据 正确 分 类 的 能 力 。 

有 两 种 剪 枝 策略 , 先 剪 枝 和 后 剪 枝 。 先 剪 枝 也 有 人 称 其 为 预 剪 枝 , 预 剪 枝 技 术 限 制 决策 
树 的 过 度 生 长 ,后 剪 枝 技 术 则 是 待 决策 树 生成 后 再 进行 剪 枝 。 


6.3.1 先 剪 枝 


最 直接 的 先 剪 枝 方法 是 事先 限定 决策 树 的 最 大 生长 高 度 , 使 决策 树 不 能 过 度 生 长 。 这 
种 停止 标准 一 般 能 够 取得 比较 好 的 效果 。 但 指定 树 高 度 的 方法 要 求 用 户 对 数据 的 取 值 分 布 
有 比较 清晰 的 掌握 ,并 需要 对 参数 值 进行 反复 尝试 ,才能 给 出 一 个 比较 合理 的 树 高 度 阀 值 。 

常用 的 方法 是 采用 统计 意义 下 的 x* 检验 、 信 息 增 益 等 度量 ,评估 每 次 结 点 分 裂 对 系统 
性 能 的 增 量 ,如 果 结 点 分 裂 的 增 量 小 于 预先 给 定 的 阀 值 , 则 不 对 该 结 点 进行 扩展 。 如 果 在 最 
好 情况 下 的 扩展 增益 都 小 于 国 值 ,即使 有 些 结 点 的 样本 不 属于 同一 类 ,算法 也 可 以 终止 。 困 
难 的 是 选取 合适 的 阀 值 , 阀 值 高 可 能 导致 决策 树 过 于 简单 , 阀 值 低 会 对 决策 树 化 简 不 充分 。 

先 剪 枝 算法 有 可 能 过 早 停止 树 的 生长 而 存在 视野 效果 问题 ,但 该 算法 效率 高 ,适合 于 规 
模 大 的 问题 。 


6.3.2 后 剪 枝 


后 剪 枝 技术 允许 决策 树 过 度 生 长 ,然后 根据 一 定 的 规则 , 剪 去 那些 不 具有 一 般 代 表 性 的 
结 点 和 分 支 。 可 以 采用 自 上 而 下 的 顺序 或 自 下 而 上 的 顺序 进行 前 枝 。 

代价 复杂 性 剪 枝 算法 是 后 剪 枝 方法 之 一 ,其 思路 是 : 最 下 面 的 未 被 剪 枝 的 结 点 称 为 树 
叶 , 并 用 它 先前 分 支 中 最 频繁 的 类 标记 。 对 于 树 中 每 个 非 树 叶 结 点 ,计算 该 结 点 上 的 子 树 被 
前 枝 可 能 出 现 的 期 望 错误 率 ; 然 后 使 用 每 个 分 支 的 错误 率 ,结合 每 个 分 支 观 察 的 权重 评估 ， 
计算 不 对 该 结 点 剪 枝 的 期 望 错误 率 。 如 果 剪 去 该 结 点 导致 较 高 的 期 望 错误 率 , 则 保留 该 子 
树 ;否则 剪 去 该 子 树 。 产 生 一 组 逐渐 被 剪 枝 的 树 之 后 ,使 用 一 个 独立 的 测试 集 评估 每 棵 树 的 
准确 率 , 就 能 得 到 具有 最 小 期 望 错误 率 的 决策 树 。 

前 枝 之 后 决策 树 的 叶 结 点 不 再 只 包含 一 类 实例 , 结 点 有 一 个 类 分 布 描述 , 即 该 叶 结 点 属 
于 某 类 的 概率 。 

可 以 将 先 剪 枝 和 后 剪 枝 算法 交叉 使 用 ,后 剪 枝 所 需 的 计算 比 先 剪 枝 多 ,但 能 产生 更 可 靠 
的 树 。 


6.4 由 决策 树 提 取 分 类 规则 


从 决策 树 提取 规则 可 以 分 为 获得 简单 规则 和 获得 精简 规则 属性 两 个 步骤 。 
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6.4.1 获得 简单 规则 


对 于 生成 好 的 决策 树 ,可 以 直接 从 中 获得 规则 。 从 根 到 叶 的 每 一 条 路 径 都 可 以 是 一 条 
规则 。 规 则 采用 IF…THEN 的 形式 表示 。 例 如 ,如 图 6-5 所 示 的 决策 树 。 


下 


J G 
0 1 0 1 
0 1 
CCias0) CCasD 
图 6-5 决策 树 


通过 图 6-5, 可 以 得 到 如 下 规则 : 


IF F=1,G=0,K=]1 THEN Classl 


6.4.2 精简 规则 属性 


在 不 影响 规则 预测 效果 的 情况 下 ,可 以 删除 一 些 分 支 , 减 少 过 度 拟 合 ,同时 获得 更 容易 
理解 的 精简 规则 。 
设 规则 的 形式 为 R: 


IE ATHEN Class C 
精简 之 后 的 规则 为 R : 
IFA THEN Class C 


其 中 A- 是 从 A 中 删除 某 些 条件 X 之 后 的 形式 。 这 样 ,规则 R 覆盖 的 实例 可 以 分 为 以 下 4 
个 部 分 ,如 表 6-3 所 示 。 


表 6-3 规则 R- 覆盖 实例 表 


Class C 其 他 类 


满足 条 件 A Y1 El 


满足 条 件 A_ ,但 不 满足 和 Y2 下 2 


规则 R 覆盖 了 Y1 十 El 个 实例 ,其 中 误 判 数目 为 E1, 规 则 R- 覆盖 了 Y1 十 El 十 Y2 十 
E2。 规 则 R 的 误 判 概率 为 P(E1) 二 El1/(E1 十 Y1) ,规则 R- 的 误 判 概率 为 PCE1 十 E2) 一 
(El 十 E2)/(Y1 十 Y2 十 E1 十 E2)。 如 果 P(E1) 宇 P(E1 十 E2), 则 可 以 从 条 件 A 中 删除 条 件 
项 X。 
如 何 获得 最 优 条 件 集 是 全 局 优化 问题 。 对 于 有 很 多 决策 属性 的 情况 ,这样 做 会 非常 耗 
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时 。 为 此 ,Quinlan 提出 了 一 种 贪 焚 搜索 方法 , 即 每 次 从 条 件 集 合 中 删除 一 个 对 预测 效果 影 
响 最 小 的 条 件 ,如果 删 除 该 条 件 后 , 误 判 概率 减 小 了 , 则 继续 上 述 过 程 。 如 果 误 判 概率 增加 
了 , 则 不 能 够 删除 该 条 件 ,而 整个 精简 过 程 也 同时 结束 。 


6.5 利用 SQL Server 2005 进行 决策 树 控 掘 


Microsoft 决策 树 (Microsoft decision trees) 是 由 Microsoft 研究 院 开 发 的 混合 型 的 决 
策 树 算法 ,主要 用 来 完成 分 类 .回归 和 关联 工作 。 其 英文 名 称 中 出 现 的 是 Trees, 而 不 是 
Tree, 原 因 如 下 : 

首先 ,在 决策 树 算法 中 ,可 以 通过 设置 不 同 的 参数 得 到 不 同形 状 的 决策 树 。 这 些 树 的 生 
成 实际 是 基于 不 同 的 决策 树 算法 的 。 

其 次 ,一 个 决策 树 模 型 可 能 包含 多 个 树 ,有 时 甚至 会 有 成 百 上 千 个 。 

Microsoft 决策 树 算法 是 由 Microsoft SQL Server 2005 Analysis Service(SSAS) 提 供 的 
分 类 和 回归 算法 ,用 于 对 离散 和 连续 属性 进行 预测 性 建 模 。 下 面 通过 一 个 实例 来 说 明 如 何 
利用 SQL Server Business Intelligence Development Studio 进行 决策 树 数据 挖掘 。 


6.5.1 数据 准备 


在 进行 数据 挖掘 前 ,需要 准备 好 数据 挖掘 使 用 的 数据 库 。 本 章 实例 沿用 书 中 第 5 章 的 
“商业 银行 信贷 ”数据 库 , 主 要 数据 库 表 结构 和 数据 挖掘 使 用 的 主要 数据 视图 结构 ,参见 第 5 
章 图 5-5 一 图 5-7, 在 此 不 再 重 述 。 

为 了 得 到 更 简洁 的 决策 树 结构 ,首先 对 该 数据 库 中 “t_dm” 表 的 次 级 \ 可 疑 \ 损 失 、 余 额 
和 正常 5 个 字段 进行 了 更 新 处 理 ,SQL 处 理 语句 如 下 : 

Update 贷款 余额 表 set 次 级 = 二 1 where 次 级 二 0.0 

Update 贷款 余额 表 set 可 疑 = 二 1 where 可 疑 二 0.0 

Update 贷款 余额 表 set 损失 三 1 where 损失 之 0. 0 

Update 贷款 余额 表 set 余额 二 1 where 余额 二 0. 0 

Update 贷款 余额 表 set 正常 二 1 where 正常 二 0.0 


6.5.2 挖掘 模型 设置 


数据 准备 好 之 后 ,需要 定义 和 设置 挖掘 模型 ,包括 两 个 方面 : 指定 列 的 用 法 和 设置 挖掘 
参数 。 其 中 挖掘 参数 设置 本 实例 使 用 默认 设置 。 列 的 用 法 如 表 6-4 所 示 。 


表 6-4 列 的 用 法 
字段 名 称 列 的 用 法 字段 名 称 列 的 用 法 
ID 键 列 客户 状态 输入 列 
客户 名 称 输入 列 重点 标志 输入 列 
客户 类 型 输入 列 可 疑 预测 列 
经 济 性 质 输入 列 次 级 预测 列 
隶属 关系 输入 列 正常 预测 列 
关注 输入 列 余额 预测 列 


法 人 资格 输入 列 损失 预测 列 


6.5.3 挖掘 流程 


以 上 准备 工作 完成 之 后 就 可 以 进行 决策 树 数据 挖掘 。 整 个 流程 分 为 数据 源 设置 数据 
源 视图 设置 和 创建 数据 挖掘 模型 三 个 部 分 。 在 SQL Server Business Intelligence 
Development Studio 工具 中 都 有 专门 的 设置 向 导 帮 助 完 成 ,在 此 处 仅 介绍 数据 挖掘 模型 的 
创建 这 一 流程 。 

数据 挖掘 模型 的 创建 由 以 下 步骤 完成 。 

(1) 布 击 项 目 Decision Tree 下 的 “挖掘 结构 ,选择 新建 挖 掘 结构 ,打开 “数据 挖 掘 向 
导 ? 对 话 框 , 单 击 * 下 一 步 ? 按 钮 ,切换 到 “选择 定义 方法 ?页 面 , 单 击 * 下 一 步 ? 按 钮 ,进行 下 一 
步 操作 。 

(2) 在 如 图 6-6 所 示 的 对 话 框 中 ,下 拉 列 表 框 中 选取 “Microsoft 决策 树 ” 选 项 , 单 击 “ 下 
一 步 ” 按 钮 ,进行 下 一 步 操作 。 

《 数据 挖 据 向 导 


选择 数据 挖 气 技 术 
选择 对 于 您 正 执行 的 分 析 类 型 来 说 最 适用 的 数据 挖 据 技 术 。 


您 要 使 用 何 种 数据 挖掘 技术 CD)? 
出 erosoft 决策 树 


说 明 ; 
Wierosoft 决 第 树 算法 是 一 种 适合 预测 性 建 模 的 分 类 算法 。 访 算法 支持 离散 属性 和 入 绪 属性 的 预测 。 


图 6-6 选择 数据 挖掘 技术 


(3) 如 图 6-7 所 示 , 在 “选择 数据 源 视图 ”页 面 的 “可 用 数据 源 视图 ”列表 中 显示 了 前 面 
步骤 创建 的 Bank 数据 源 视 图 ,选中 该 视图 选项 , 单 击 * 下 一 步 ?按钮 ,进行 下 一 步 操作 。 

(4) 如 图 6-8 所 示 ,在 "指定 表 类 型 页面 中 可 以 看 到 Bank 数据 源 视图 包含 的 数据 表 ， 
勾 选 “t_dm” 选 项 右边 的 “事例 复 选 框 ,可 以 将 其 定义 为 事例 表 ; 单 击 * 下 一 步 ?按钮 ,进行 下 
一 步 操作 。 

(5) 如 图 6-9 所 示 ,在 “指定 定型 数据 "页面 显示 了 挖掘 模型 结构 ,在 各 个 选项 右边 勾 选 
不 同 的 复 选 框 ,可 以 将 不 同 的 表 和 列 设置 为 键 表 、 键 列 \ 输 入 列 和 可 预测 列 等 ,各 种 本 步骤 的 
设置 参考 表 6-4 来 完成 ,然后 单 击 “ 下 一 步 ” 按 钮 ,进行 下 一 步 操作 。 

(6) 如 图 6-10 所 示 ,经 过 “检测 "将 指定 数字 列 , 即 “次 级 “关注 ”“ 可 疑 "“ 损 失 ”、“ 余 
额 * 和 “正常 ”的 连续 值 转换 成 离散 值 , 即 0 或 1, 与 第 6.5.1 小 节 中 做 的 数据 处 理 对 应 起 来 。 
在 “指定 列 的 内 容 和 数据 类 型 "页 面 中 显示 了 指定 “ID” 的 内 容 类 型 为 Key,“ 余 额 ”* 的 内 容 类 
型 为 Continuous ,其 余 列 内 容 类 型 均 为 Discrete;ID 的 数据 类 型 为 long, “法 人 资格 ”“ 经 济 
性 质 *" “客户 类 型 " “客户 状态 ”“ 隶 属 关 系 * 和 “重点 标志 ”的 数据 类 型 为 Text, 其 余 各 列 数 
据 类 型 均 为 Double, 单 击 “ 下 一 步 ” 按 钮 ,进行 下 一 步 操 作 。 


“ls 


《 数据 挖 握 向 导 


选择 数据 源 视图 
选择 为 挖掘 结构 提供 数据 的 数据 源 视 图 。 


图 6-7 选择 数据 源 视图 


《 数据 挖掘 向 导 


指定 表 类 型 
指定 分 析 时 要 使 用 的 表 关 型 。 


输入 表 (D: 


囊 事例 
KE 着) 


图 6-8 指定 表 类 型 


网 输入 同 可 


ogo99999099999090@ 诺 
日 日 日 罗 罗 日 风 日 日 风 罗 罗 日 日 


自 和 外 和 多 外 自 自 自 自白 自 自 外 伯 
日 罗 罗 罗 口 口 口 口 口 罗 口 口 口 风口 


为 当前 汗 定 的 可 预测 内 容 提供 输入 建议 : 
于 


< 上 一步 | |_ 寺 BD>z1 | 6 | 


图 6-9 指定 定型 数据 


< 数据 挖 握 向 导 


图 6-10 指定 列 的 内 容 和 数据 类 型 


(7) 如 图 6-11 所 示 ， 


“完成 向 导 ” 页 面 中 将 数据 挖掘 结构 命名 为 tDml , 单 击 * 完 成 ? 按 
钮 ,完成 挖掘 结构 的 创建 。 


《 数据 挖 握 向 导 


完 | 


为 控 据 结构 提供 名 称 ， 从 而 充 成 数据 控 据 向 导 . 


挖 据 结 构 名 称 (M): 
toml 


控 据 模型 名 称 (Dj): 


tpmll 回 允许 钻 取 (D 


图 6-11 完成 数据 挖掘 结构 的 创建 


6.5.4 挖掘 结果 分 析 


(1) 单 击 “ 挖 掘 模型 ?选项 卡 下 的 “决策 树 ”, 其 结果 如 图 6-12 所 示 , 图 中 决策 树 是 对 预 
测 列 * 次 级 "产生 的 ,其 中 , 深 色 代表 1- 类 , 浅 色 代表 0- 类 。 事 实 上 ,选择 其 余 预测 列 “ 可 疑 ” 
“正常 ”“ 余 额 *“ 损 失 ” 均 会 产生 与 该 预测 列 相应 的 决策 树 ,在 此 ,不 再 展开 。 
(2) 单 击 “ 挖 掘 模型 ?选项 卡 下 的 “依赖 关系 网 络 ”, 其 结果 如 图 6-13 所 示 。 图 中 有 向 边 
的 终点 是 预测 列 , 各 有 向 边 的 起 点 是 对 该 预测 列 有 影响 的 输入 列 。 


5 


客户 状态 
一 停产 
Gs 


隶属 关系 不 等 于 :省 届 


图 6-13 挖掘 得 到 的 依赖 关系 图 


通过 选择 依赖 关系 图 中 的 某 个 结 点 ,可 以 突显 出 其 依赖 关系 。 例 如 ,选中 结 点 “余额 ”， 
可 疑 显 示 出 其 影响 因素 有 “客户 类 型 "“ 经 济 性 质 ”"“ 正 常 "“ 隶 属 关系 ”“ 重 点 标志 ”和 “法 
人 资格 ”, 如 图 6-14 所 示 。 
通过 选择 链接 程度 ,还 可 以 找 出 对 图 中 结 点 受 影响 的 程度 。 以 “余额 * 结 点 为 例 , 可 以 得 
到 受 影响 最 大 的 结 点 是 “重要 标志 ”, 如 图 6-15 所 示 。 该 结 点 可 以 得 到 如 表 6-5 所 示 的 依赖 
关系 表 。 
.136 。 


图 6-14 ， 涂 额 " 结 点 的 依赖 关系 图 


客户 类 型 


图 6-15 与 疹 额 "” 结 点 链接 强度 最 强 结 点 示意 图 


表 6-5 “余额 " 结 点 依赖 关系 表 
决策 结 点 依赖 关系 强 弱 顺序 


余额 


重要 标志 1 


隶属 关系 2 


客户 类 型 " 


经 济 性 质 


客户 状态 


laln 


法 人 资格 


“ IF 


6.5.5 挖掘 性 能 分 析 


(1) 单 击 * 挖 气 准 确 性 图 表 ” 中 * 列 映射 ?选项 卡 , 选 择 已 建立 的 挖掘 结构 tDml, 选 择 
t_dm 作为 输入 表 , 筛 选 “ 余 额 ” 字 段 作 为 输入 数据 ,选择 * 次 级 "作为 提升 图 输出 ,如 图 6-16 
所 示 。 


Cerro 
CEO YT IA Ma AA 
i | 
ET CTTTTTT EE 
- rr 3 
IE 一 -一 一 tee 


Bana 
we 


图 6-16 列 映射 图 


(2) 单 击 “ 挖 掘 准确 性 图 表 ” 中 “提升 图 ”选项 卡 ,显示 如 图 6-17 所 示 的 提升 图 ,这 是 以 
属性 “次 级 ”为 输出 属性 得 到 的 ,该 图 表明 预测 模型 与 理想 模型 是 比较 匹配 的 。 


NE A ER MIRD OW EO We) 
团 - 辐 团 | 半 驮 旭 | 了 -入 -caront - 条 室 公 


Dt = ~ * | CEE 
w mbt |< mi [F AGE | | 局 | 六 
ET 了 Pn 
aa ES | a 
Ter 
控 拓 结构 的 其 据 控 基 近 升 因 : + Da 1 a 
加 + Ba 
人 SO 
se 
| 已 HE 
名 和 
四 
wn 
时 
Ea AB ms 
oo [2 
ew: Ce 
” eee a 
a 
生体 | 
= San wenn 
Bi 
3 


图 6-17 属性 次 级 ”的 预测 提升 图 


“ 38.。 


小 结 


本 章 主要 介绍 了 决策 树 算 法 的 各 种 相关 知识 ,首先 对 决策 树 算法 的 信息 论 原理 进行 了 
介绍 ,并 介绍 和 分 析 了 常用 的 决策 树 算法 ;其 次 对 提高 决策 树 算法 生成 的 决策 树 的 分 类 效果 
的 决策 树 剪 枝 技术 进行 了 讲解 ,最 后 ,采用 SQL Server 2005 数据 挖掘 工具 实现 了 一 个 银行 
客户 分 析 的 实例 ,进一步 加 深 对 决策 树 算法 的 认识 和 理解 。 


习题 6 


1. 概率 分 布 [0:0625;0:0625;0:125;0:5j] 的 炉 是 多 少 ? 

2. 汽车 保险 例子 。 假 定 训练 数据 库 具 有 两 个 属性 : 年 龄 和 汽车 的 类 型 。 
年 龄 一 一 序数 分 类 。 

汽车 类 型 一 一 分 类 属性 。 

类 一 一 L: 低 ( 风 险 ),H: 高 (风险 ) 。 


年 龄 汽车 类 型 类 
>21 Maruti L 
>21 Hyundai H 
<21 Maruti H 
<21 Indica H 
>21 Maruti L 
2 Hyundai H 


使 用 ID3 算法 做 出 它 的 决策 树 。 

3. 简 述 ID3 和 C4. 5 算法 之 间 的 异同 。 

. 简 述 决策 树 剪 枝 的 步骤 。 

. 练习 SQL Server 2005 决策 树 挖掘 模型 的 构建 。 


cn 心 


“ L393 


第 7 章 统计 学 习 方法 


统计 学 是 搜集 、 展 示 、 分 析 及 解释 数据 的 科学 ,数据 挖掘 大 部 分 核心 功能 的 实现 都 以 计 
量 和 统计 分 析 方法 作为 支撑 。 许 多 成 熟 的 统计 方法 构成 了 数据 挖掘 的 核心 内 容 。 

常见 的 统计 分 析 方 法 有 回归 分 析 ( 多 元 回归 、. 自 回 归 )、 判 别 分 析 ( 贝 叶 斯 判别 、 费 吹 尔 判 
别 , 非 参数 判别 ) 以 及 探索 性 分 析 ( 主 元 分 析 、 相 关 分 析 ) 等 。 下 面 主 要 介绍 朴素 贝 叶 斯 分 类 、 
贝 叶 斯 信念 网 络 EM 算法 和 回归 分 析 方 法 。 


7.1 朴素 贝 叶 斯 分 类 


朴素 贝 叶 斯 分 类 器 是 贝 叶 斯 分 类 模型 中 一 种 最 简单 有 效 而 且 在 实际 使 用 中 很 成 功 的 
分 类 器 ,朴素 贝 叶 斯 分 类 基于 贝 叶 斯 定理 ,在 实际 运用 中 降低 了 贝 叶 斯 网 络 构建 的 复杂 性 。 
分 类 算法 的 比较 研究 发 现 ,朴素 贝 叶 斯 分 类 算法 可 以 与 判定 树 和 神经 网 络 分 类 算法 相 媲 美 ， 
用 于 大 型 数据 库 分 析 ; 朴 素 贝 叶 斯 分 类 也 已 表现 出 高 准确 率 与 高 速度 ,而 且 已 经 成 功 地 应 用 
于 夷 类 、 分 类 等 数据 挖掘 任务 中 。 


7.1.1 贝 叶 斯 定理 


设 X 是 类 标号 未 知 的 数据 样本 。 设 互 为 某 种 假定 ,如 数据 样本 X 属于 某 特 定 的 类 C 。 
对 于 分 类 问题 ,希望 确定 P(CHE/X) 一 一 给 定 观 测 数据 样本 X ,假定 互 成 立 的 概率 。 

P(CH/X) 称 为 条 件 X 下 , 互 的 后 验 概率 。 例 如 ,假定 数据 样本 空间 由 水 果 组 成 ,用 它们 
的 颜色 和 形状 描述 ;车 X 表示 一 个 样本 是 红色 和 圆 的 , 互 表示 假定 这 个 样本 是 苹果 , 则 
P(H/X) 反 映 当 看 到 一 个 样本 是 红色 并 是 圆 的 时 ,对 这 个 样本 是 苹果 的 确信 程度 。 

P(HH) 称 为 的 先 验 概率 。 对 于 上 面 的 例子 , 它 是 任意 给 定 的 数据 样本 为 苹果 的 概率 ， 
而 不 管 数 据 样本 看 上 去 如 何 。 

后 验 概率 比 先 验 概率 基于 更 多 的 信息 (如 ,背景 知识 ) 。 

假设 先 验 概率 P(X)、P(H) 和 后 验 概率 PCX/DD) 可 以 由 给 定 的 数据 计算 , 贝 叶 斯 定理 
提供 了 一 种 由 P(X),P(H) 和 P(X/ 晶 ) 计 算 后 验 概率 PCLH/X) 的 方法 , 即 贝 叶 斯 公式 : 


P(X/H)P(H) 
P(X) 


例如 ,假设 A 为 事件 “产品 合格 ”,B 为 “机 器 工作 正常 *, 现 给 出 以 下 概率 : 
机 器 工作 正常 ,生产 产品 合格 的 概率 为 P(A/B) 王 0.95; 
机 器 正常 工作 ,生产 产品 不 合格 的 概率 为 PC(A/B) 王 1 一 P(A/B) 一 0.05; 
机 器 不 正常 工作 时 ,生产 产品 合格 的 概率 为 P(A/B)=0.1; 
机 器 正常 工作 的 概率 , 即 PCB) 王 0.9。 
已 知 生产 了 一 个 不 合格 产品 ,通过 计算 P(B/A) 的 概率 ,并 与 P(B/A) 进 行 比较 ,可 以 
从 概率 角度 判断 机 器 正常 工作 还 是 不 正常 工作 的 可 能 性 大 。 
.140 。 


P(H/X) = (7 


利用 贝 叶 斯 定理 进行 计算 ,过程 如 下 : 


P(A/B) x PCB) PA/BYK PCB) 
P(B/A) = - 
P(A) P(A/B) x P(B) + P(A/B) x P(B) 
0.05X0.9 


0. 333 


0.05X0.9 十 0.9X0.1 
P(B/A) =1—0.333 = 0. 667 
可 以 看 出 P(B/A) 二 P(B/A), 由 此 得 出 结论 为 ,生产 出 一 个 不 合格 产品 时 ,机 器 不 正 
常 工作 的 概率 比较 大 。 


7.1.2 朴素 贝 叶 斯 分 类 


朴素 贝 叶 斯 分 类 过 程 如 下 。 

(1) 每 个 数据 样本 用 一 个 维特 征 向 量 久 == (zi ,zo，… ,xs) 表 示 , 属 性 Ai,Azs，…,A， 
描述 对 样本 的 个 度量 。 

(2) 假定 有 m 个 类 Ci,C;,…,C,。 给 定 一 个 未 知 的 数据 样本 X( 即 没有 类 标号 ) ,分 类 
法 将 预测 X 属于 具有 最 高 后 验 概率 (条 件 X 下 ) 的 类 。 即 朴素 贝 叶 斯 分 类 将 未 知 的 样本 分 
配给 类 C;, 当 且 仅 当 : 

PO/XY SS POO/XY OFE 和 mi (7-2) 

时 ,于 是 可 以 最 大 化 PC(C;/X), 其 中 


PC/X) 二 PK/LCYPC) 


P(X) 

(3) 由 于 P(X) 对 于 所 有 类 为 常数 ,只 需要 P(X/C;)P(C;) 最 大 即 可 。 

若 类 的 先 验 概率 未 知 , 则 通常 假定 这 些 类 是 等 概率 的 , 即 P(C1)==P(C)==… 二 
P(CC。) 。 据 此 只 需 对 P(X/C;) 最 大 化 。 

若 类 的 先 验 概率 已 知 , 则 最 大 化 PCX/Ci)p(C;)。 类 的 先 验 概率 可 以 用 P(C;)==s;/s 计 
算 , 其 中 s; 是 类 C; 中 的 训练 样本 数 ,而 s 是 训练 样本 总 数 。 

(4) 给 定 具 有 许多 属性 的 数据 集 , 计 算 P(X/C;) 的 开销 可 能 非常 大 。 为 降低 计算 
P(X/C;) 的 开销 ,可 以 做 类 条 件 独 立 的 朴素 假定 , 即 给 定 样 本 的 类 标号 ,假定 属性 值 条 件 地 
相互 独立 , 即 在 属性 间 不 存在 依赖 关系 。 这 样 ， 


P(X/Ci) = [[ P(x/C;) (7-3) 
k=1 


概率 PCzi/Ci) ,P(xs/C;),…,P(z,/Ci) 可 以 由 训练 样本 估 值 。 

Q@ 如 果 A 是 离散 型 属性 , 则 PCzs/C;) 二 sa /si; 其 中 sa 是 在 属性 A 上 具有 值 x; 的 类 C， 
的 训练 样本 数 ,而 s; 是 C; 中 的 训练 样本 数 。 

@ 如 果 A 是 连续 型 属性 , 则 通常 假定 该 属性 服从 高 斯 分 布 。 因 而 ， 


(rpc 2 
PCzre/Ci) 一 g5Czeypc :ac ) 一 e 过 (7-4) 
y ts” /2 oc, GC 


其 中 ,给 定 类 C; 的 训练 样本 属性 A 的 值 ,g(xi ,pyc ,oc ) 是 属性 A 的 高 斯 密度 函数 ,而 wc ， 
cc 分 别 为 平均 值 和 标准 差 。 
(5) 对 每 个 类 C; ,计算 P(X/C;)P(C;)。 样 本 X 被 指派 到 类 C;, 当 且 仅 当 : 
141， 


P(X/Ci)P(Ci) > P(X/C)P(C), 1l1<j<m,jijzi 
换言之 ,X 被 指派 到 使 P(X/C;)P(C;) 最 大 的 类 C;。 
例如 ,给 定 表 7-1 所 示 的 训练 数据 ,数据 样本 用 属性 age,income，student 和 credit_ 
rating 描述 。 类 标号 属性 buys_computer 具有 两 个 不 同 值 ( 即 { yes,no})。 给 定 一 个 没有 类 
标号 的 数据 样本 X= (age 一 "一 王 30" ,income 一 "medium" ，student 一 "yes"，credit _ rating 
一 "fair") ,下面 使 用 朴素 贝 叶 斯 分 类 预测 这 个 数据 样本 的 类 标号 。 


表 7-1 AllElectronics 顾客 数据 库 训 练 数据 元 组 


RID age income Student Credit_rating Class:buys_computer 
| <=30 high no fair No 
2 ==30 high no excellent No 
3 31…40 high no fair Yes 
4 二 40 medium no fair Yes 
5 40 low yes fair Yes 
6 40 low yes excellent No 
六 31…40 low yes excellent Yes 
8 <=30 medium no fair No 
9 <=30 low yes fair Yes 
10 二 40 medium yes fair Yes 
11 <=30 medium yes excellent Yes 
ls 31…40 medium no excellent Yes 
13 31.…40 high yes fair Yes 
14 >40 medium no excellent No 


设 Cl 对 应 于 类 buys_computer 王 "yes" ,而 Cs 对 应 于 类 buys_computer 二 "no"。 根 据 前 
面 的 讲述 ,需要 最 大 化 P(X/Ci)P(Ci) ,一 1,2。 
每 个 类 的 先 验 概率 P(C;) 可 以 根据 训练 样本 计算 : 
P(buys_computer= "yes")=9/14=0. 643 
P(buys_computer="no")=5/14=0.357 

为 计算 PCX/Ci) ,i 二 1,2, 计 算 下 面 的 条 件 概 率 : 
Plage="<30"|buys_computer= "yes")=2/9=0. 222 
Plage="<30"|buys_computer="no")=3/5=0. 600 
Plincome= "medium"|buys_computer= "yes")=4/9=0. 444 
Plincome= "medium"|buys_computer= "no")=2/5=0. 400 
Plstudent= "yes"|buys_computer= "yes")=6/9=0. 667 
Plstudent="yes"| buys_computer="no")=1/5=0. 200 
Plcredit_rating= "fair" |buys_computer= "yes")=6/9=0. 667 
Plcredit_rating= "fair" |buys_computer= "no")=2/5=0. 400 

使 用 以 上 概率 ,可 以 得 到 : 

P(X|buys_computer="yes")=0.222X0.444X0.667X0.667=0.044 

P(X|buys_computer="no")=0. 600X0. 400X0.200X0.400=0.019 

P(X|buys_computer="yes") P(buys_computer="yes")=0.044X0.643=0. 028 

P(X|buys_computer="no") P(buys_computer= "no")=0.019X0.357=0.007 
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因此 ,对 于 样本 X ,朴素 贝 叶 斯 分 类 预测 buys_computer 一 "yes"。 


7.2 贝 叶 斯 信念 网 络 


7.2.1 贝 叶 斯 信念 网 络 


贝 叶 斯 信念 网 络 也 称 为 信念 网 络 、 贝 叶 斯 网 络 或 概率 网 络 , 是 一 种 不 确定 知识 表达 和 推 
理 领 域 最 有 效 的 理论 模型 。 这 种 理论 于 1985 年 由 Judea Pearl 首先 提出 , 它 的 理论 基础 是 
基于 后 验 概率 的 贝 叶 斯 定理 。 

朴素 贝 叶 斯 假定 类 条 件 独立 , 即 给 定 元 组 的 类 标号 ,假定 属性 的 值 可 以 有 条 件 地 相互 独 
立 。 然 而 ,在 实践 中 ,变量 之 间 的 依赖 是 可 能 存在 的 ,属性 集 之 间 也 并 不 是 完全 独立 的 ,在 这 
种 情况 下 ,朴素 贝 叶 斯 不 能 很 好 地 对 样本 进行 分 类 , 贝 叶 斯 网 络 的 提出 很 好 地 解决 了 数据 集 
之 间 的 相关 情况 , 它 使 用 网 络 结构 将 不 确定 的 事件 形式 化 地 表示 出 来 ,并 可 以 用 于 分 类 、 聚 
类 、 预 测 等 关系 的 分 析 。 

贝 叶 斯 信念 网 络 是 基于 概率 推理 的 图 形 化 网 络 ,由 一 个 有 向 无 环 图 (directed acyclic 
graph,DAG) 表 示 , 图 中 的 每 个 结 点 代表 一 个 随机 变量 , 结 点 间 的 有 向 边 代 表 了 结 点 间 的 概 

如 果 一 条 有 向 边 由 结 点 A 指向 结 点 B, 则 称 结 点 A 是 结 点 B 的 双亲 , 结 点 B 是 结 点 A 
的 后 代 。 

对 于 每 个 变量 ,信念 网 络 有 一 个 条 件 概 率 表 (conditional probability table,CPT)。 变 量 
Y 的 CPT 说 明 条 件 分 布 PCY|Parents(Y)) ,其 中 Parents(Y) 是 
Y 的 双亲 。 (ra) P(R)=0.4 

贝 叶 斯 网 络 的 一 个 重要 性 质 是 : 给 定 其 双亲 ,每 个 变量 有 条 
件 地 独立 于 图 中 它 的 非 后代 。 

一 个 简单 的 贝 叶 斯 网 络 由 图 7-1 给 出 , 它 对 下 雨 (R) 引 起 草 ( 湿 草 地 
地 变 湿 (W) 进 行 建 模 。 天 下 雨 的 可 能 性 为 40% ,并且 下 雨 时 草 
地 变 湿 的 可 能 性 为 90% ,也许 10% 的 时 间 雨 下 得 不 长 ,不 足以 让 图 71 下 雨 使 草地 变 湿 的 
草地 被 淋 湿 ;存在 20% 的 可 能 性 草地 变 湿 而 实际 上 并 没有 下 雨 ， 贝 叶 斯 信念 网 络 
例如 使 用 喷 水 器 时 。 

在 这 个 例子 中 ,随机 变量 是 二 元 的 。 可 以 看 到 以 上 3 个 概率 就 可 以 完全 指定 (R,W) 的 联 
合 分 布 。 因 为 PCR) 王 0.4, 则 P( 一 R)==0.6, 类 似 地 ,P(~~WIR)=0.1,P(~~W|~R)=0. 8。 


7.2.2 贝 叶 斯 网 络 的 特点 


(1) 贝 叶 斯 网 络 通过 网 络 结构 图 的 方法 来 描述 数据 间 的 关系 ,语义 清晰 ,可 理解 性 强 ， 
有 助 于 利用 数据 间 的 因果 关系 进行 分 析 。 

(2) 贝 叶 斯 网 络 适合 处 理 不 完整 的 数据 。 对 有 属性 遗漏 的 实例 ,可 以 通过 对 该 属性 的 
所 有 可 能 取 值 的 概率 求 和 或 者 积分 来 处 理 。 

(3) 贝 叶 斯 网 络 本 身 没有 输入 和 输出 的 概念 ,各 个 结 点 的 计算 都 是 相对 独立 的 ,可 以 由 
上 级 向 下 级 结 点 推理 ,也 可 以 由 下 级 向 上 级 结 点 推理 。 


P(WIR )=0.9 
P(WI~R )=0.2 
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7.2.3 贝 叶 斯 网 络 的 应 用 


贝 叶 斯 网 络 的 主要 应 用 包括 诊断 分 析 和 预测 推理 ,下 面 分 别 进行 介绍 。 

1. 利用 贝 叶 斯 网 络 进行 诊断 分 析 

图 7-1 所 示 的 贝 叶 斯 网 络 实质 上 是 一 个 因果 图 。 解 释 草地 变 湿 的 主要 原因 是 下 雨 。 贝 
叶 斯 法 则 允许 颠倒 因果 关系 并 做 出 诊断 。 例 如 ,已 知 草 地 是 湿 的 , 则 下 过 雨 的 概率 可 以 计算 
如 下 : 


PCR |W) P(W | R)P(R) P(W | R)P(R) 
P(W) P(W | R)P(R)+ PW |~ R)P(~ R) 
0.9X0.4 0.75 


0.9X0.4 十 0.2X0.6 
2. 利用 贝 叶 斯 网 络 进行 预测 推理 
现在 ,假设 把 喷 水 器 (S) 作 为 草地 变 湿 的 另 一 个 原因 ,如 图 7-2 所 示 , 此 时 结 点 W 有 两 
个 双亲 结 点 R 和 S。 现 在 可 以 计算 喷 水 器 开 着 草 p502 pp-04 
地 会 湿 的 概率 ,无 须知 道 是 否 下 过 雨 ,这 是 一 个 预 
测 推理- 


P(W |1S) =PCOW |R.S)P(R|S) P(WIR,S)=0.95 
a P(W|R,~S)=0.90 
十 P(W |~R,SP(~RIS) 人 


=P(W | R,S)P(R) 

十 P(W |~ R,S)P(~ R) 
二 0.95 X0.4 十 0.9X0.6 
一 0. 92 


其 中 PCR1S)= 王 PCR) ,这 是 因为 根据 图 7-2,R 和 S 是 独立 的 。 


P(WI~R~S)=0.10 


图 7-2 下 雨 和 喷 水 器 使 草地 变 湿 的 
贝 叶 斯 信念 网 络 


7.3 EM 算法 


如 果 知 道 总 体 X 的 分 布 类 型 ,但 分 布 中 的 参数 未 知 , 当 需 要 确定 未 知 参 数 时 ,可 根据 抽 
到 的 样本 ,对 总 体 分 布 中 的 未 知 参 数 做 出 估计 。 极 大 似 然 估计 就 是 一 种 常用 的 参数 估计 方 
法 , 它 以 观测 值 出 现 的 概率 最 大 作为 准则 。 但 是 ,如 果 训 练 数据 集中 的 一 些 数据 由 于 某 些 原 
因 观 测 不 完整 ,就 必须 借助 于 其 他 方法 。 

EM 算法 是 Dempster, Laind, Rubin 于 1977 年 提出 的 求 参数 极 大 似 然 估计 的 一 种 方 
法 , 它 可 以 从 非 完整 数据 集中 对 参数 进行 极 大 似 然 估 计 , 是 一 种 非常 简单 实用 的 学 习 算法 。 
这 种 方法 可 以 广泛 地 应 用 于 处 理 缺 损 数 据 、 截 尾数 据 , 带 有 噪声 的 数据 等 各 种 不 完整 数据 。 

下 面 首先 通过 一 个 例子 介绍 EM 算法 的 思想 。 


7.3.1 估计 个 高 斯 分 布 的 均值 


考虑 数据 D 是 一 个 实例 集合 , 它 由 上 个 不 同 正 态 分 布 的 混合 分 布 生成 ,如 图 7-3 所 示 ， 
其 中 二 2 而 且 实 例 为 沿 着 x 轴 显 示 的 点 。 每 个 实例 通过 两 步骤 过 程 形 成 。 
(1) 随机 选择 & 个 正 态 分 布 中 的 一 个 。 
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(2) 实例 xz; 按照 此 选择 的 分 布 生成 。 

这 一 过 程 不 断 重复 ,生成 一 组 数据 点 如 图 7-3 
所 示 。 为 使 讨论 简单 化 ,考虑 一 个 简单 情形 , 即 单个 
正 态 分 布 的 选择 基于 均匀 概率 进行 ,并 且 个 正 态 
分 布 有 相同 的 方差 o?, 且 方差 已 知 。 输 入 一 个 假设 
h 二 《ya…p4), 它 描述 了 个 分 布 中 每 一 个 分 布 的 均 ”图 73 由 两 个 具有 相等 方差 的 正 态 
值 。 现 在 的 任务 是 ,对 这 些 均值 找到 一 个 极 大 似 然 分 布 混合 生成 的 实例 
假设 , 即 一 个 使 pC(D/h) 最 大 化 的 假设 有 。 

当 给 定 从 一 个 正 态 分 布 中 抽取 的 数据 实例 zi ,zs，… ,zx 时 ,很 容易 计算 该 分 布 均值 的 
极 大 似 然 假设 pwr ,可 以 得 到 : 


> 
1 


At = arg min DC — yy) (7-5) 
在 此 情况 下 , 极 大 似 然 假设 pe 等 于 样本 均值 , 即 
= 3 (7-6) 


然而 ,问题 涉及 个 不 同 正 态 分 布 的 混合 ， 而 且 不 知道 哪个 实例 是 哪个 分 布 产 生 的 , 央 
此 这 是 一 个 涉及 隐藏 变量 的 典型 例子 。 可 把 每 个 实例 的 完整 描述 看 做 是 三 元 组 (xi, xa， 
zz) ,其 中 zi 是 第 i 个 实例 的 观测 值 ,za ,xz 表示 两 个 正 态 分 布 中 哪个 被 用 于 产生 值 x;。 确 
切 地 讲 x; 在 zx; 由 第 j 个 正 态 分 布 产 生 时 值 为 1, 否 则 为 0。 这 里 ,zx; 是 实例 描述 中 已 观测 到 
的 变量 ,za ,zw 是 隐藏 变量 。 如 果 za ,zi 的 值 可 知 ,就 可 以 求解 均值 y, 和 jy,。 然 而 它们 未 
知 ,因此 选用 EM 算法 。 

EM 算法 应 用 于 个 正 态 分 布 的 均值 问题 ,目的 是 搜索 一 个 极 大 似 然 假设 ,方法 是 根据 
当前 假设 (ya ,wa ) 不 断 地 再 估计 隐藏 变量 x; 的 期 望 值 。 然 后 用 这 些 隐藏 变量 的 期 望 值 重新 
计算 极 大 似 然 假 设 。 

为 了 估计 图 中 的 两 个 均值 ,EM 算法 首先 将 假设 初始 化 为 h 三 (pa ,Am ) ,其 中 心 和 we 为 
任意 的 初始 值 。 然 后 重复 以 下 的 两 个 步骤 来 估计 ,直到 该 过 程 收敛 到 一 个 稳定 的 值 。 

第 1 步 ,假定 当前 假设 h= (yu ,pz ) 成 立 , 计 算 每 个 隐藏 变量 z; 的 期 望 值 ELx; ]。 

第 2 步 ,假定 每 个 隐藏 变量 x; 所 取 的 值 为 第 1 步 中 得 到 的 期 望 值 EL[x;], 计 算 一 个 新 
的 极 大 似 然 假设 ,将 假设 = (ju ,wm ) 蔡 换 为 新 的 假设 大 一 (wa ,pes) ,然后 循环 。 

第 1 步 要 计算 每 个 zx; 的 期 望 值 。 此 ELx; ] 正 是 实例 x; 由 第 j 个 正 态 分布 产 生 的 概率 : 


BL]= | 6 


SP =Zz|p= pp) ei 
因此 ,第 1 步 可 由 将 当前 值 (i :pa) 和 已 知 的 xz 代入 到 上 式 中 实现 。 
在 第 1 步 中 ,使 用 第 2 步 中 得 到 的 EL ] 来 导出 一 新 的 极 大 似 然 假设 大 一 (CA )。 这 
时 的 极 大 似 然 假 设 为 


PEC, 


二 一 (7-8) 
2 ELss] 


万 < 


“ 5% 


注意 ,此 表达 式 类 似 于 式 7-6 中 的 样本 均值 , 它 用 于 从 单个 正 态 分 布 中 估计 y。 新 的 表 
达 式 只 是 对 jy 的 加 权 样 本 均值 ,每 个 实例 由 第 7 个 正 态 分 布 产生 的 期 望 值 下 [xi ] 来 权衡 。 

上 面 估计 个 正 态 分 布 均值 的 例子 描述 了 EM 方法 的 要 点 , 即 当前 的 假设 用 于 估计 未 
知 变量 ,而 这 些 变量 的 期 望 值 再 被 用 于 改进 假设 。 可 以 证 明 , 在 此 算法 每 一 次 循环 中 ,EM 
算法 能 使 PCLD/h) 增 加 ,除非 PCD/P) 已 达到 局 部 最 大 。 因 此 该 算法 收敛 于 (ma ,ma ) 的 一 个 
局 部 极 大 似 然 假设 。 


7.3.2 EM 算法 的 一 般 表 述 


上 面 的 EM 算法 针对 的 是 估计 混合 正 态 分 布 均值 的 问题 。 在 上 面 的 二 均值 问题 中 , 感 
兴趣 的 参数 0= (pu ,p12 ) ,全 部 数据 为 三 元 组 (x; ,za ,zz) ,而 只 有 x; 可 观察 到 。 

更 为 一 般 的 情况 是 ,EM 算法 可 用 于 许多 问题 框架 ,在 这 类 问题 中 ,需要 估计 一 组 描述 
基准 概率 分 布 的 参数 0, 只 给 定 了 由 此 分 布 产 生 的 全 部 数据 中 能 观察 到 的 一 部 分 。 

一 般 令 X= (Xi ,…,Xn) 代 表 观 察 到 的 数据 ,并 令 Y=XUZ 代表 全 体 数据 。 未 观察 到 
的 2 可 被 看 做 一 个 随机 变量 , 它 的 概率 分 布依 赖 于 未 知 参数 0 和 已 知 数据 X。 与 此 类 似 , 了 
是 一 个 随机 变量 , 它 是 由 随机 变量 Z 来 定义 的 。 

下 面 将 描述 EM 算法 的 一 般 形式 ,其 中 使 用 有 来 代表 参数 9 的 假设 值 ,而 代表 在 EM 
算法 的 每 次 迭代 中 修改 的 假设 。 

EM 算法 通过 搜索 使 期 望 ELln PC(Y/h')] 最 大 的 来 寻找 极 大 似 然 假设 h'。 此 期 望 值 
是 在 Y 所 遵循 的 概率 分 布 上 计算 ,此 分 布 由 未 知 参数 9 确定 。 

首先 ,P(Y/h') 是 给 定 假设 下 全 部 数据 Y 的 似 然 度 。 其 合理 性 在 于 我 们 要 寻找 一 个 
使 函数 值 P(Y/h') 最 大 化 。 其 次 ,使 该 量 的 对 数 In PC(Y/h') 最 大 化 也 使 PCY/h) 最 大 化 。 
第 三 ,引入 期 望 值 ELin PC(Y/h')] 是 因为 全 部 数据 Y 本 身 也 是 一 个 随机 变量 。 已 知 全 部 数 
据 Y 是 观察 到 的 X 和 未 观察 到 的 Z 的 合并 ,必须 在 未 观察 到 的 Z 的 可 能 值 上 取 平 均 并 以 
相应 的 概率 为 权 值 。 换 言 之 ,要 在 随机 变量 Y 遵循 的 概率 分 布 上 取 期 望 值 E[ln PC(Y/h)]。 
该 分 布 由 完全 已 知 的 X 值 加 上 2 服从 的 分 布 来 确定 。 

Y 遵循 的 概率 分 布 ,一 般 来 说 是 未 知 的 , 它 由 待 估计 的 9 参数 确定 。EM 算法 使 用 其 当 
前 的 假设 代替 实际 参数 9, 以 估计 Y 的 分 布 。 现 定义 一 个 函数 Q(h /有 ) ,在 9==h 和 全 部 数 
据 Y 的 观察 到 的 部 分 X 的 假定 之 下 , 它 将 ELln PC(Y/h)] 作 为 的 一 个 函数 给 出 。 

Qh/h) = ELInP(Y/h’) | h,X] 

在 EM 算法 的 一 般 形式 里 , 它 重 复 以 下 两 个 步骤 直至 收敛 。 

第 1 步 , 估 计 (E) 步 骤 。 使 用 当前 假设 h 和 观察 到 的 数据 XX 来 估计 Y 上 的 概率 分 布 以 
计算 Qh /h): 


QR’/h) = ELln P(Y/h’) | h,X] (7-9) 
第 2 步 ,最 大 化 (MD) 的 步骤 。 将 假设 hh 替换 为 使 Q 函数 最 大 的 假设 h: 
Le arg max Qh /h) (7-10) 


当 函 数 Q 连续 时 ,EM 算法 收敛 到 似 然 函数 PCY/h') 的 一 个 不 动 点 。 若 此 似 然 函数 有 
唯一 的 最 大 值 ,EM 算法 可 以 收敛 到 这 个 对 及 的 全 局 极 大 似 然 估计 。 否 则 , 它 只 能 保证 收敛 
到 一 个 局 部 最 大 值 。 因 此 ,EM 算法 与 其 他 最 优 方 法 有 同样 的 局 限 性 。 
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7.4 回归 分 析 


“回归 ”最 初 是 遗传 学 中 的 名 词 ,由 英国 生物 学 家 兼 统计 学 家 高 尔 登 首先 提出 ,他 在 研究 
人 体 身 高 的 时 候 ,发 现 高 个 子 父 母 的 子女 身高 有 低 于 其 父母 身高 的 趋势 ,而 矮 个 子 父 母 的 子 
女 身高 有 高 于 其 父母 身高 的 趋势 ,从 整体 的 发 展 趋势 看 ,高 矮 个 子 从 两 个 方向 回归 于 平均 人 
口 的 平均 身高 。“ 回 归 ” 这 个 名 词 , 从 此 一 直 为 生物 学 和 统计 学 所 沿用 。 

回归 的 现代 含义 和 过 去 大 不 相同 ,回归 分 析 是 研究 变量 之 间 相 关 关 系 的 一 种 统计 推断 
法 。 回 归 分 析 , 是 指 在 相关 分 析 的 基础 上 ,把 变量 之 间 的 具体 变动 关系 模型 化 , 求 出 关系 方 
程式 , 即 一 个 能 够 反映 变量 间 变 化 关系 的 函数 关系 式 ,并 据 此 进行 估计 和 推算 。 通 过 回归 分 
析 , 可 以 将 相关 变量 之 间 不 确定 ,不 规则 的 数量 关系 一 般 化 ,规范 化 ,从 而 可 以 根据 自 变量 的 
某 一 个 给 定 值 推断 出 因 变量 的 估计 值 。 

回归 分 析 包 括 多 种 类 型 。 根 据 所 涉及 变量 的 多 少 不 同 ,可 分 为 一 元 回归 和 多 元 回归 。 
一 元 回归 是 指 两 个 变量 之 间 的 回归 ,其 中 一 个 变量 是 自 变量 , 另 一 个 变量 是 因 变 量 。 根 据 变 
量变 化 的 表现 形式 不 同 ,回归 分 析 也 可 分 为 线性 回归 和 非 线性 回归 。 对 具有 直线 相关 关系 
的 现象 配 之 以 直线 方程 进行 回归 分 析 , 即 线性 回归 ;对 具有 曲线 相关 关系 的 现象 配 之 以 曲线 
方程 进行 回归 分 析 , 则 称 为 非 线 性 回归 。 


7.4.1 一 元 线性 回归 


一 元 线性 回归 将 一 个 随机 变量 Y 视 为 另 一 个 变量 z 的 线性 函数 , 即 : Y= 二 a 十 br, 其 中 ， 
a 和 2 是 回归 系数 ,分 别 表示 直线 在 Y 轴 的 截 距 和 直线 的 斜率 。 

现 讨论 如 何 根据 观测 值 (zi;,yi) ,i 二 1,2,…,n 估计 回归 函数 A(z) 二 a 十 bx 中 的 回归 
系数 。 

采用 最 小 二 乘法 , 记 平方 和 


Qa,b) = Dyi—a— bri)’ C7 1 
i=1] 
找 使 Q(a,5) 达 到 最 小 的 a.b 作为 其 估计 , 即 
Qa4.6) = min Qa,b) (7-12) 
为 此 , 令 
aQ . 
2 a 一 br;) 一 0 
， gn ky 
aQ 
7 2 a— bre)zy 0 
解 得 
沉 
b= 
无 = (7-14) 
Q& 一 了 一 风 


其 中 ,元 是 zi,ze,…，zs 的 平均 值 , 而 > 是 yi:,y,…,y 的 平均 值 ， 


1 


Ls = Dz) > 3) 
Np > Ge 元 )(y 一 了 ) De l(a)(%») C7-15) 


例如 , 某 种 合成 纤维 的 强度 与 其 拉 伸 倍数 有 关 。 表 7-2 是 24 个 纤维 样品 的 强度 与 相应 
的 拉 伸 倍数 的 实测 记录 。 试 求 这 两 个 变量 间 的 回归 表达 式 。 


表 7-2 合成 纤维 系数 表 


五 


编 号 1 . 3 4 5 6 7 8 9 10 11 12 
拉 伸 倍数 zx | 
强度 y(Mpa) | 

编 号 13 | 14 15 | 16 | 17 | 18 |19 |20 121 | 22 | 23 24 
拉 伸 倍数 zx 5.0 |5.2|6.0|6.3|6.5|7.1|8.0|8.0|8.9|9.0 | 9.5 | 10.0 
强度 y(Mpa) is. | Ss0' | 565 650 | 00: | Si | 625: | Tio | Bs | BO | Bit | Be 


将 观察 值 (zi ,yi) ,i 二 1,…,24 在 平面 直角 坐标 系 下 用 点 标 出 ,所 得 的 图 称 为 散 点 图 。 
从 本 例 的 散 点 图 看 出 ,强度 y 与 拉 伸 倍数 zx 之 间 大 致 呈现 线性 相关 关系 ,一 元 线性 回归 模 
型 是 适用 于 > 与 zx 的 。 
利用 上 述 公 式 : 
n= 24 


2 一 127.5， Dy = 113.1 


Dx? = 829.61, D)y: = 650.93, Dziy: 一 731.6 


Le 一 829.61 一 让 X127.5* = 152. 266 

Ls = 731.6 一 让 X127.5 X113.1= 130.756 
L,, = 650. 93 xX 113.1: = 117. 946 

b= Ls 

5 


6 一 下 = 0.859， 4& 一 7 一 时 一 0.15 


由 此 得 强度 y 与 拉 伸 倍 数 z 之 间 的 经 验 公式 为 > 一 0.15 十 0.859zr。 
7.4.2 多 元 线性 回归 


在 实际 问题 中 , 因 变 量 通常 不 只 受到 一 个 自 变 量 的 影响 ,在 这 种 情况 下 抛 开 其 他 因素 ， 
只 考虑 一 个 因素 显然 是 不 合适 的 ,因此 有 必要 研究 多 个 自 变 量 的 回归 分 析 。 
假设 一 个 随机 变量 Y 与 个 非 随 机 变量 Xi ,XX .…,Xw。 之 间 存 在 线性 相关 关系 , 则 它 
们 之 间 的 关系 可 以 用 以 下 线性 回归 模型 来 表示 : Y= 二 Bo 十 BXi 十 BX; 十 … 十 BX 十 e。 
其 中 ,了 是 因 变量 ,Xi;(i 二 1,2,…,m) 是 自 变量 .B.(i 二 0,1,2,…,m) 是 模型 的 参数 , 称 为 偏 相 
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关系 数 ;e 是 随机 误差 。 
回归 参数 Bi 一 0,1,2,…:z2) 的 估计 方法 还 是 最 小 二 乘法 。 根 据 样 本 数据 (y,zuyzz， 
…,Zw ) 来 估计 BB(i 一 0,1,2,…,m) 时 要 使 得 产生 残 差 的 平方 和 
Q= yD yy (BtPBiryt "t+Bnrm) 
取 极 小 值 。 为 此 ,对 Q 分 别 求 B;(i==0,1,2,…,m) 的 偏 导数 ,并 令 其 等 于 零 , 由 此 可 以 得 到 
m 十 1 个 方程 。 


2 2D Ly BtBry ttBry)] = 0 
& 名 


2 =—2D)[y,— (B+Bzy t+Brn) ry 一 0 
j=1 


(7-16) 
强 =22y (Bt J 0 
网 rf 
整理 后 可 得 方程 组 
npBo 十 2 ruB 相机 DE 全 27» 
Drupo 二 xz9p i > zrnB, 一 Dryy; 
= pr | a (7-17) 


Dat, Doesp 村 5 二 Dp. — Deny 


对 于 自 变量 X LX， oy 和 因 变 量 Y 共有 组 观察 数据 心 表 示 自 变量 X， 的 第 
次 观察 值 ,w 表示 因 变 量 Y 的 第 i 次 观察 值 。 令 


ly = Drn—z) Cram), i = 1,2,m 
k=1 


lo = Dra —z) Cy my i=1,2,m 
k=1 


lw = 2 Cy — 7): (7-18) 
k=1 


则 回归 系数 BGi=0,1,2,…,m) 可 以 由 方程 组 求 出 : 
luBi + hzB t+ hn = ho 
laBi + lazBs t+ *** + lam = lzo 


Lm Bi lm BP: 不 :a eR Lno 
常数 项 一 了 一 28 .区 (7-19) 
7.4.3 非 线 性 回归 


当 判定 变量 间 的 关系 大 臻 是 一 条 直线 时 ,就 可 以 拟 合 一 条 直线 反映 其 变动 关系 。 但 是 
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在 很 多 情况 下 ,变量 间 的 关系 呈 曲 线形 式 , 即 非 线 性 的 ,这 时 就 应 拟 合 一 条 曲线 来 反映 变量 
间 的 关系 。 

非 线 性 回归 的 主要 模型 有 以 下 几 种 。 

(1) 抛物 线 模型 (二 次 曲线 模型 ) : y 二 Bo 十 Bz 十 Bz? 十 e 


(2) 双 有 曲线 模型 : y= 二 Bi 十 B 二 +e 


(3) 对 数 模型 : y 王 记 十 Bln z 十 e 

(4) 三 角 函 数 模型 : y= 二 Bi 十 Bosin zx 十 e 

(5) 指数 函数 模型 : y 二 Be 

(6) 窜 函 数 模型 . y 二 azx? 十 &; 

(7) 多 项 式 模型 : y= 二 Bo 十 Bz 十 Bax 十 … 十 Bpx? 十 e 

(8) 修正 指数 增长 模型 : y= 二 a 十 Br 十 e; 

根据 非 线性 回归 模型 线性 化 的 不 同性 质 ,这 些 模 型 可 以 分 为 3 种 类 型 。 

1. 直接 换 元 法 

这 类 非 线性 回归 模型 通过 简单 的 变量 换 元 可 以 直接 化 为 线性 回归 模型 ,如 双 曲 线 模型 、 
二 次 曲线 模型 ,对 数 模型 、 三 角 模 型 。 由 于 这 类 模型 的 因 变量 没有 变形 ,所 以 可 以 直接 采用 
最 小 平方 法 估计 回归 系数 并 进行 检验 和 预测 。 

2. 间接 代 换 法 

这 类 非 线性 回归 模型 经 常 通过 对 数 变形 代 换 间接 地 化 为 线性 回归 模型 ,如 指数 模型 、 震 
函数 模型 。 由 于 这 类 模型 在 对 数 变形 代 换 过 程 中 改变 了 因 变 量 的 形态 ,使 得 变形 后 模型 的 
最 小 平方 估计 失去 了 原 模 型 的 残 差 平方 和 最 小 的 性 质 ,从 而 估计 不 到 原 模 型 的 最 佳 回 归 系 
数 , 造 成 了 回归 模型 与 原 数列 之 间 的 较 大 偏差 。 

3. 非 线性 型 

这 类 非 线性 回归 模型 属于 不 可 线性 化 的 非 线性 回归 模型 ,如 修正 指数 增长 模型 。 


7.5 利用 SQL Server 2005 进行 线性 回归 分 析 


图 7-4 为 某 市 1991 一 2000 年 的 财政 数据 ,数据 包括 每 年 的 财政 收入 .进口 商品 金额 .出 
口 商品 金额 外资 吸 收 金额 和 财政 支出 。 问 题 是 如 何 利用 数据 挖掘 技术 确定 财政 收入 和 进 
口 商 品 金额 .出 口 商品 金额 ,外资 吸收 金额 .财政 支出 之 间 的 关系 。 

将 每 两 个 指标 下 的 数据 在 平面 直角 坐标 系 下 用 点 标 出 ,可 得 到 指标 之 间 的 矩阵 散 点 图 。 
通过 矩阵 散 点 图 7-5, 可 以 看 出 财政 收入 分 别 和 进口 商品 金额 .出 口 商品 金额 ,外资 吸收 金 
额 、. 财 政 支出 之 间 呈 近似 的 线性 关系 。 下 面 使 用 SQL Server 2005 软件 ,建立 财政 收入 和 进 
口 商 品 金额 .出口 商品 金额 ,外资 吸 收 金额 .财政 支出 之 间 的 多 元 线性 回归 模型 。 

数据 挖掘 模型 的 创建 由 以 下 步骤 完成 。 

(1) 右 击 项 目 数据 挖掘 向 导 下 的 “挖掘 结构 ”, 选 择 “ 新 建 挖掘 结构 ”, 打 开 “ 数 据 挖掘 向 
导 ” 对 话 框 , 单 击 “ 下 一 步 ” 按 钮 ,弹出 “选择 定义 方法 ”对 话 框 , 单 击 “ 下 一 步 ” 按 钮 ,进行 下 一 
步 操作 。 
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1999 
2000 
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75 和 矩阵 散 点 图 


(2) 在 如 图 7-6 所 示 的 下 拉 列 表 框 中 选取 “Microsoft 线性 回归 ”选项 , 单 击 “下 一 步 ” 按 
钮 ,进行 下 一 步 操作 。 

(3) 如 图 7-7 所 示 ,在 “选择 数据 源 视图 ”对 话 框 的 “可 用 数据 源 视图 ”列表 中 显示 了 创 
建 的 某 市 财政 数据 源 视 图 ,选中 该 视图 选项 , 单 击 * 下 一 步 ? 按 钮 ,进行 下 一 步 操作 。 

(4) 如 图 7-8 所 示 , 在 “指定 表 类 型 "对 话 框 中 可 以 看 到 某 市 财政 数据 源 视图 包含 的 数据 
表 , 在 各 个 选项 右边 勾 选 不 同 的 复 选 框 .其 中 进口 商品 金额 .出 口 商品 金额 .外 资 吸收 、 财 政 支 
出 作为 输入 ,年 份 作为 主键 ,财政 收入 作为 可 预测 变量 , 单 击 “ 下 一 步 ”按钮 ,进行 下 一 步 操作 。 

(5) 如 图 7-9 所 示 ,在 “指定 列 的 内 容 和 数据 类 型 对话 框 中 显示 了 指定 “年 份 ” 的 内 容 
类 型 为 Key, 其 余 列 内 容 类 型 均 为 Continuous; 所 有 列 的 数据 类 型 均 为 Double, 单 击 * 下 一 
步 " 按 钮 ,进行 下 一 步 操作 。 

(6) 如 图 7-10 所 示 ,在 “完成 向 导 ” 页 面 中 完成 挖掘 结构 的 创建 。 
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数据 挖 据 向 导 
选择 数据 挖掘 技 术 
选择 对 于 您 正 执行 的 分 析 类 型 来 说 景 适用 的 灼 据 控 据 技术 - 
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图 76 选择 数据 挖掘 技术 


《 数据 挖 据 向 导 


选择 数据 源 视图 
选择 为 挖掘 结构 提供 数 奖 的 数据 源 视 图 . 


可 用 数据 还 视图 A) 


0 
ho. Sheet1$ 


77 选择 数据 源 视 图 


《 数据 挖 据 向 导 


指定 定型 数据 
指定 分 析 中 所 用 的 列 。 


《上 一 步 @) | 下 一 步 咱 > ] 


图 78 指定 表 类 型 
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《 数据 挖 振 向 导 


指定 列 的 内 容 和 数据 类 型 
指定 挖 所 结构 列 的 内 容 和 数据 类 型 。 


挖 据 模 型 结构 E) 


列 内 容 类 型 。 数据 类 型 


国 财政 支出 Continuous Double 
国 出 口 商品 全 额 Continuous Double 


国 进口 商品 全 额 Continuous Double 


福 年 份 Key Double 
国 外 资 吸 收 Continuous Double 


图 79 指定 列 的 内 容 和 数据 类 型 


& 数据 挖 振 向 导 


完成 向 导 
为 挖 气 结 构 提供 名 称 ， 从 而 完成 数据 控 据 向 导 . 


挖 据 结构 名 称 员 ) 


挖 据 模 型 名 称 @) 


国 允许 钻 取代 ) 


图 710 完成 数据 挖掘 结构 的 创建 


(7) 单 击 “ 挖 掘 模型 "选项 卡 下 的 “依赖 关系 网 络 ”, 可 以 清晰 地 看 到 进口 商品 金额 \ 出 口 
商品 金额 、 外 资 吸收 、 财 政 支出 这 4 个 输入 和 可 预测 变量 财政 收入 之 间 的 关系 ,其 结果 如 
图 7-11 所 示 。 
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在 网 络 中 迁 中 某 个 节点 以 突出 显示 其 依 粮 关系 。 
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图 71 依赖 关系 网 络 


(8) 单 击 * 挖 掘 准确 性 图 表 ” 选 项 卡 下 的 “提升 图 ”和 * 分 类 矩阵”, 其 结果 如 图 7-12 
所 示 。 
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图 712 提升 图 


图 7-12 中 显示 了 预测 值 和 实际 值 之 间 的 拟 合 关系 ,可 以 看 出 在 建立 回归 模型 的 基础 上 
预测 值 和 实际 值 基本 拟 合 。 
(9) 将 图 7-12 右 下 部 署 进度 复 选 框 拖 出 .如 图 7-13 所 示 。 由 此 图 可 以 得 到 财政 收入 和 
进口 商品 金额 .出口 商 品 金额 ,外资 吸收 金额 .财政 支出 之 间 的 多 元 线性 回归 方程 。 
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小 结 


:10 
gs 518-0. 726* (进口 商品 金额 -239. 902)+1. 009* (外 资 吸收 -48.767)+2. 278* (出 口 商 品 金额 -264.615)+0, 869* 侧 政 支出 -316. 398) 


区 本 ETJEE 


图 713 回归 方程 


基于 统计 的 学 习 方 法 在 数据 挖掘 中 占有 重要 位 置 。 本 章 较为 具体 地 介绍 了 数据 挖掘 中 
常用 的 统计 学 习 方法 ,包括 朴素 贝 叶 斯 分 类 、 贝 叶 斯 信念 网 络 `EM 算法 和 回归 分 析 方 法 。 
最 后 详细 介绍 了 基于 SQL Server 2005 的 线性 回归 实现 技术 ,使 读者 进一步 体会 如 何 利 用 
SQL Server 2005 具体 实现 线性 回归 挖掘 。 


习题 7 


5. 
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. 非 线性 回归 的 模型 有 哪些 ? 


1. 什么 是 贝 叶 斯 定理 ? 

2. 简 述 如 何 利 用 朴素 贝 叶 斯 方法 进行 分 类 。 
3 

4. 简 述 EM 算法 的 基本 思想 。 


简 述 贝 叶 斯 信念 网 络 的 特点 及 其 应 用 。 


简 述 线性 回归 的 思想 。 


“ L553 


第 8 音 ” 人 工 神经 网 络 方法 


从 数学 和 物理 方法 以 及 信息 处 理 的 角度 对 人 脑 神经 网 络 进行 抽象 ,并 建立 某 种 简化 模 
型 , 称 为 人 工 神 经 网 络 (Cartificial neural network,ANN)。 在 模式 识别 .系统 辨识 .信和 号 处 
理 、 自 动 控 制 .组 合 优化 、 预 测 预 估 \ 故 障 诊 断 .数据 挖 掘 ,医学 和 经 济 学 等 领域 ,人 工 神 经 网 
络 已 经 成 功 解决 了 许多 现代 计算 机 难以 解决 的 实际 问题 ,表现 出 良好 的 智能 特性 和 潜在 的 
应 用 前 景 。 

人 工 神经 网 络 的 特点 和 优势 主要 表现 在 以 下 3 个 方面 。 第 一 ,具有 自学 习 功 能 。 例 如 
实现 图 像 识 别 时 ,只 要 先 把 不 同 的 图 像样 本 和 对 应 的 识别 结果 输入 人 工 神 经 网 络 , 网 络 就 会 
通过 自学 习 功 能 ,学 习 识别 类 似 的 图 像 。 第 二 ,具有 联想 存储 功能 。 人 工 神 经 网 络 的 反馈 网 
络 可 以 实现 这 种 联想 ,例如 ,经 过 训练 的 神经 网 络 可 以 从 * 眼 睛 ?特征 恢复 整个 人 脸 图 像 , 这 
叫做 自 联 想 , 从 “勺子 ?联系 出 “筷子 "“ 碗 ”等 ,这 叫做 互联 想 。 第 三 ,具有 高 速 寻 找 优化 解 的 
能 力 。 寻 找 某 个 复杂 问题 的 优化 解 往往 需要 很 大 的 计算 量 , 利 用 一 个 针对 特定 问题 而 设计 
的 反馈 型 人 工 神经 网 络 ,发 挥 计 算 机 的 高 速 运算 能 力 , 可 以 很 快 找到 优化 解 。 

由 于 人 工 神经 网 络 具 有 高 度 的 抗 干扰 能 力 和 可 以 对 未 训练 数据 进行 分 类 等 优点 ,在 预 
测 型 知识 挖掘 中 , 它 已 经 成 为 很 有 用 的 一 种 模式 结构 。 


8.1 人 工 神经 网 络 的 基本 概念 


8.1.1 人 工 神经 元 原理 


神经 生理 学 家 和 神经 解剖 学 家 早已 证 明 , 人 的 思维 是 通过 人 脑 完成 的 ,神经 元 是 组 成 人 
脑 的 最 基本 单元 ,人 脑 神经 元 大 约 有 102 一 102 个 。 

神经 元 由 细胞 体 、. 树 突 和 轴 突 三 部 分 组 成 ,是 一 种 根 须 状 的 蔓延 物 。 神 经 元 的 中 心 有 一 
闭 点 , 称 为 细胞 体 , 它 能 对 接收 到 的 信息 进行 处 理 。 细 胞 体 周围 的 纤维 有 两 类 , 轴 突 是 较 长 
的 神经 纤维 ,是 发 出 信息 的 。 树 突 的 神经 纤维 较 短 ,而 分 支 很 多 ,是 接收 信息 的 。 一 个 神经 
元 的 轴 突 末端 与 男 一 个 神经 元 的 树 突 之 间 密 切 接触 ,传递 神经 元 冲动 的 地 方 称 为 突 触 。 经 
过 突 触 的 冲动 传递 是 有 方向 性 的 ,不 同 的 突 触 进行 的 冲动 传递 效果 不 一 样 ,有 的 使 后 一 神经 
元 发 生 兴奋 ,有 的 使 它 受 到 抑制 ,每 个 神经 元 可 有 10 一 10' 个 突 触 。 这 表明 大 脑 是 一 个 广泛 
连接 的 复杂 网 络 系统 。 从 信息 处 理 功 能 看 ,神经 元 具有 如 下 性 质 : 

(1) 多 输入 , 单 输出 ; 

(2) 突 触 兼 有 兴奋 和 抑制 两 种 性 能 ; 

(3) 可 时 间 加 权 和 空间 加 权 ; 

(4) 可 产生 脉冲 ; 

(5) 脉冲 传递 ; 

(6) 非 线 性 (有 阅 值 )。 
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神经 元 的 数学 模型 可 用 图 8-1 表示 。 
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细胞 


图 8-1 神经 元 模型 


该 神经 元 模型 输入 输出 关系 为 
S;= TV 一 0 


U; = f(S;) (8-1) 
其 中 , Vi,V,,…,V, 为 输入 ; U; 为 神经 元 的 输出 ;T; 为 外 面神经 元 与 该 神经 元 的 连接 强度 
( 即 权 ) ;0; 为 国 值 ; f(x) 为 该 神经 元 的 作用 函数 。 图 8-2 表示 了 几 种 常见 的 作用 函数 。 


区 世 


a“ 


| 


图 8-2 常见 的 作用 函数 


在 图 8-2 中 ,各 作用 函数 的 解析 表达 式 如 下 。 


(a) 比例 函数 ， 
yy 一 Cr) 一 工 (8-2) 
(b) [0,1] 阶 跃 函数 : 
3= 70 = {0 Se (8-3) 
0 二 过 0 
(c) [一 1,1] 符 号 函数 : 
-Am 人 这 (8-4) 
—] 0 
(d) (一 1,1) 双 曲 函 数 : 
y= f(z) = 和 (8-5) 


(e) 饱和 函数 : 


i 


和 x 之 十 
y= f(x) kr 1 去 产 却 a (8-6) 
k k 
em | z < 一 区 
(1) (0,1)S 型 函数 ， 
= f(x)=_l E 
y= f(x) Ie (08-7) 


8.1.2 人 工 神 经 网 络 拓扑 结构 


人 工 神 经 网 络 是 一 个 并 行 和 分 布 式 的 信息 处 理 网 络 结构 ,该 网 络 结构 一 般 由 许多 个 神 
经 元 组 成 ,每 个 神经 元 有 一 个 单一 的 输出 , 它 可 以 连接 到 很 多 其 他 的 神经 元 ,其 输入 有 多 个 
连接 通路 ,每 个 连接 通路 对 应 一 个 连接 权 系数 。 

严格 来 说 ,神经 网 络 是 一 个 具有 如 下 性 质 的 有 向 图 。 

(1) 对 于 每 个 结 点 有 一 个 状态 变量 Wi; 

(2) 结 点 j 到 结 点 有 一 个 连接 权 系数 Ti 

(3) 对 于 每 个 结 点 有 一 个 阔 值 0.; 

(4) 对 于 每 个 结 点 定义 一 个 变换 函数 (作用 函数 ) f(z)。 

图 8-3 表示 了 两 种 典型 的 神经 网 络 结构 ,图 8-3(a) 为 前 馈 型 网 络 ,图 8-3(b) 为 反馈 型 
网 络 。 


(b) 


图 8-3 典型 的 神经 网 络 结构 


人 工 神经 网 络 是 生物 神经 网 络 的 一 种 模拟 和 近似 。 它 主要 从 两 个 方面 进行 模拟 : 一 种 
是 从 结构 和 实现 机 理 方面 进行 模拟 , 它 涉及 生物 学 ,生理 学 ,心理 学 ,物理 及 化 学 等 许多 基础 
学 科 ; 另 一 种 是 从 功能 上 加 以 模拟 , 即 尽量 使 得 人 工 神经 网 络 具 有 生物 神经 网 络 的 某 些 功能 
特性 ,如 学 习 、 识 别 、 控 制 等 功能 。 本 章 着 重 于 后 者 ,主要 介绍 几 种 典型 的 神经 网 络 模型 ,并 
讨论 它们 在 数据 挖掘 中 的 应 用 。 


8.1.3 人工 神 经 网 络 学 习 算 法 


神经 网 络 之 所 以 能 够 胜任 一 些 复杂 的 工作 是 因为 它 有 学 习 的 能 力 ,神经 网 络 的 工作 过 
程 可 分 为 两 个 阶段 。 首 先 对 神经 网 络 进行 训练 (学 习 期 ) ,在 学 习 期 主要 是 利用 给 定 的 数据 
或 知识 来 调整 网 络 的 各 种 参数 (连接 权 、 闪 值 ,甚至 还 包括 网 络 拓扑 结构 ) 。 当 学 习 结束 后 ， 
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神经 网 络 便 学 到 了 所 要 求 的 知识 。 在 下 一 个 阶段 (工作 期 ) 神 经 网 络 就 利用 学 习 期 所 学 到 的 
知识 ,对 网 络 输入 做 出 正确 的 响应 。 

1. 神经 网 络 的 学 习 方 式 

神经 网 络 的 学 习 方 式 有 3 种 : 监督 学 习 ( 有 导师 学 习 )、 非 监督 学 习 ( 无 导师 学 习 ) 和 再 
励 学 习 ( 强 化 学 习 ) 。 

(1) 监督 学 习 。 监 督学 习 需 要 有 一 组 给 定 的 样本 (输入 输出 数据 对 ) ,其 中 包含 了 输入 
数据 和 对 应 的 正确 输出 ,神经 网 络 就 利用 样本 和 自身 的 输出 间 的 误差 不 断 调整 连接 强度 参 
数 , 直 到 神经 网 络 的 输出 和 正确 的 输出 接近 到 某 一 程度 为 止 , 这 样 神经 网 络 就 模拟 了 输入 空 
间 到 输出 空间 的 映射 关系 。 

(2) 非 监督 学 习 。 进 行 非 监 督学 习 时 ,外 部 数据 没有 提供 正确 的 输出 ,只 是 根据 外 部 数 
据 的 某 些 统计 规律 来 调整 连接 强度 参数 或 拓扑 结构 ,其 实 这 是 一 种 自 组 织 的 过 程 。 这 样 可 
以 表示 出 外 部 数据 的 某 些 固有 特征 ,如 聚 类 或 统计 分 布 特征 。 

(3) 再 励 学 习 。 再 励 学 习 处 于 以 上 两 种 学 习 之 间 , 既 不 给 出 正确 答案 又 不 是 什么 参考 
都 没有 ,而 是 对 神经 网 络 的 输出 给 出 评价 信息 ,通过 奖惩 来 完善 神经 网 络 的 权 值 , 从 而 改善 
网 络 性 能 。 

2. 神经 网 络 的 学 习 规 则 

(1) 误差 纠正 学 习 。 令 y(n) 为 输入 是 x (n) 时 的 神经 元 在 nn 时 刻 的 实际 输出 ， 
di(n) 表 示 应 有 的 输出 , 则 误差 信号 可 写 为 

er(n) = di(n) — y(n) (8-8) 

误差 纠正 学 习 的 最 终 目的 是 使 某 一 基于 es(z) 的 目标 函数 达到 最 小 ,以 使 网 络 中 每 一 输 
出 单元 的 实际 输出 在 某 种 统计 意义 上 双 近 应 有 输出 。 一 旦 选 定 了 目标 函数 形式 ,误差 纠正 
学 习 就 变 成 了 典型 的 最 优化 问题 ,通常 用 的 目标 函数 是 均 方 误差 判 据 , 定 义 为 误差 平方 和 的 
均值 J; 


J = E[ 半 eco] (8-9) 


其 中 五 为 求 期 望 算 子 , 上 式 的 前 提 是 被 学 习 的 过 程 是 宽 平 稳 的 ,具体 方法 可 用 最 优 梯 度 下 
降 法 。 直 接 用 J 在 时 刻 n 的 瞬时 值 C(x) 代 替 本 , 即 


5 = 二 DDei) (8-10) 
问题 变 为 求 E(w) 对 权 值 w 的 极 小 值 , 根 据 梯度 下 降 法 可 得 
Awys = Wer(n)z;(n) (8-11) 


其 中 7 为 学 习 步 长 ,这 就 是 通常 所 说 的 误差 纠正 学 习 , 又 叫 delta 学 习 规则 。 
(2) Hebb 学 习 。Hebb 学 习 是 由 神经 心理 学 家 Hebb 提出 的 学 习 规则 ,可 归纳 为 “ 当 某 
一 连接 两 端的 神经 元 同步 激发 或 同步 抑制 时 该 连接 强度 应 增强 ,反之 减弱 ”。 
Hebb 学 习 规 则 为 , 若 ;与 7 两 个 神经 元 之 间 同 时 处 于 兴奋 状态 , 则 它们 之 间 的 连接 应 
加 强 , 即 
Aoi = aSiS;, a>0 (8-12) 
这 一 规则 与 “条 件 反射 学 说 一 臻 ,并 得 到 神经 细胞 学 说 的 证 实 。 设 "一 1, 当 5S; 二 5S; 二 1 
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时 ,A6s 一 1, 在 Si ,Si 中 有 一 个 为 0 时 ,Am 一 0。 

(3) 竞争 (competitive) 学 习 。 在 竞争 学 习 时 ,网 络 各 输出 单元 互相 竞争 ,最 后 达到 只 有 
一 个 最 强 者 激活 ,最 常见 的 情况 是 输出 神经 元 之 间 有 侧 向 抑制 性 连接 ,这 样 原来 输出 单元 中 
如 有 某 一 单元 较 强 , 则 它 将 获胜 并 抑制 其 他 单元 ,最 后 只 有 此 强 者 处 于 激活 状态 。 

神经 网 络 有 很 多 种 学 习 算法 ,一 个 神经 网 络 要 选用 什么 算法 与 网 络 结构 规模 和 实际 问 
题 的 性 质 有 关 。 常 见 的 学 习 算法 有 以 下 几 种 : 误差 反 向 传播 (error back propagation,BP) 
学 习 算 法 .遗传 算法 .最 小 二 乘 学 习 算 法 、 随 机 梯度 法 、 模 拟 退火 算法 .卡尔 曼 滤波 器 算法 等 。 
下 面 将 结合 具体 的 神经 网 络 详细 介绍 相应 的 学 习 算法 。 


8.1.4 人 工 神 经 网 络 泛 化 


建立 神经 网 络 模型 的 一 个 重要 目标 是 通过 对 已 知 环境 信息 的 学 习 , 掌 握 其 中 的 规律 ,从 
而 对 新 的 环境 信息 做 出 正确 的 预测 ,这 个 目标 是 通过 神经 网 络 模型 的 泛 化 (generalization) 
能 力 来 体现 的 。 泛 化 能 力 定义 为 : 经 训练 (学 习 ) 后 的 预测 模型 对 未 在 训练 集中 出 现 (但 具 
有 统一 规律 性 ?的 样本 做 出 正确 反映 的 能 力 。 学 习 不 是 简单 地 记忆 已 经 学 过 的 输入 ,而 是 通 
过 对 有 限 个 训练 样本 的 学 习 , 得 到 隐 含 在 样本 中 的 有 关 环境 本 身 的 内 在 规律 性 。 例 如 ,对 有 
导师 学 习 的 网 络 ,通过 对 已 有 样本 的 学 习 , 将 所 提取 的 样本 中 的 非 线 性 映射 关系 存储 在 权 值 
和 矩阵 中 ,在 其 后 的 工作 阶段 , 当 向 网 络 输入 训练 时 未 曾 见 过 的 非 样本 数据 (与 训练 集 同 分 布 ) 
时 ,网 络 也 能 完成 由 输入 空间 向 输出 空间 的 正确 映射 。 

神经 网 络 的 泛 化 能 力 与 其 预测 功能 密切 相关 ,一 般 来 说 ,神经 网 络 模型 的 泛 化 能 力 取决 
于 三 个 主要 因素 , 即 问题 本 身 的 复杂 程度 、 网 络 权 值 参 数 的 初 值 以 及 样本 量 的 大 小 。 问 题 复 
杂 , 学 习 样本 数量 少 ,网 络 权 值 初始 化 不 理想 , 则 泛 化 能 力 弱 ; 反 之 泛 化 能 力 强 。 具 有 较 好 的 
泛 化 能 力 是 神经 网 络 设计 的 评价 指标 之 一 ,有 许多 不 同 的 度量 方法 ,有 兴趣 的 读者 可 以 参阅 
有 关 神 经 网 络 设计 方法 的 书籍 。 


8.2 误差 反 向 传播 (BP) 神 经 网 络 


BP 模型 是 1986 年 由 Rumelhart 和 McCelland 领导 的 科学 家 小 组 提出 的 ,具有 如 图 8-3(a) 
所 示 的 分 层 结构 ,最 下 面 一 层 是 输入 层 , 中 间 是 隐 含 层 , 最 上 面 一 层 是 输出 层 。 其 信息 从 输 
入 层 依 次 向 上 传递 ,直至 输出 层 。 该 网 络 实际 是 一 种 多 层 感 知 器 (multi perceptron) 前 馈 网 
络 , 由 于 连接 权 的 调整 采用 的 是 误差 反 向 传播 的 学 习 算法 ,因此 也 称 为 BP 网 络 。 该 网 络 是 
至 今 为 止 应 用 最 广泛 的 神经 网 络 。 


8.2.1 BP 神经 网 络 的 拓扑 结构 


BP 神经 网 络 不 仅 有 输入 结 点 、 输 出 结 点 ,而 且 
还 有 一 层 或 多 层 隐 含 结 点 ,神经 元 的 变换 函数 采用 
(0,1)S 型 函数 。 如 图 8-4 所 示 。 

图 8-4 所 示 的 网 络 中 ,最 下 面 的 层 为 输入 层 , 第 
Q 层 为 输出 层 ,中 间 各 层 为 隐 含 层 , 设 第 v 层 (q= 一 1， 
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2,…,Q) 的 神经 元 个 数 为 n, ,输入 到 第 g 层 的 第 i 个 图 8-4 BP 神经 网 络 的 拓扑 结构 
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神经 元 的 连接 权 系数 为 @ 兄 (i 二 1,2,… ,ns;j 二 1,2,… ,ns-1)。 该 网 络 的 输入 输出 变换 关 
系 为 : 


"1 
st 一 > OP zl =, op = 一 1 
j=0 
xz = f(s0) 一 1 
| Ie 
1 一 1,2, ,7 J 一 1,2,…o dg 一 1,2…,Q (8-13) 


设 给 定 P 组 输入 输出 样本 xz? 二 [zz Td, 二 [dndp"**dma] (p=1,2,…,P) 
利用 该 样本 集 首先 对 BP 网 络 进行 训练 ,训练 的 目的 是 对 网 络 的 连接 权 系数 进行 学 习 和 调 
整 , 以 使 该 网 络 实现 给 定 的 输入 输出 关系 。 经 过 训练 的 BP 网 络 , 对 于 不 是 样本 集中 的 输入 
也 能 给 出 合适 的 输出 ,也 就 是 泛 化 功能 。 从 函数 拟 合 的 角度 , 它 说 明 BP 网 络 具 有 插值 的 
功能 。 


8.2.2 BP 神经 网 络 学 习 算 法 


误差 反 向 传播 (BP) 学 习 算 法 是 实现 函数 允 近 的 一 种 方法 。 其 基本 思想 是 ,学 习 过 程 由 
信和 号 的 正 向 传播 与 误差 的 反 向 传播 两 个 过 程 组 成 。 正 向 传播 时 ,输入 样本 从 输入 层 传 人 ,经 
各 隐 层 逐 层 处 理 后 , 传 向 输出 层 。 若 输出 层 的 实际 输出 与 期 望 的 输出 (教师 信号 ) 不 符 , 则 转 
入 误差 的 反 向 传播 阶段 。 误 差 反 传 是 将 输出 误差 以 某 种 形式 通过 隐 层 向 输入 层 逐 层 反 传 ， 
并 将 误差 分 摊 给 各 层 的 所 有 结 点 ,从 而 获得 各 层 结 点 的 误差 信号 ,此 误差 信号 即 作为 修正 各 
结 点 权 值 的 依据 。 这 种 信号 正 向 传播 与 误差 反 向 传播 的 各 层 权 值 调 整 过 程 是 周而复始 地 进 
行 的 。 权 值 不 断 调整 的 过 程 ,也 就 是 网 络 的 学 习 训 练 过 程 。 此 过 程 一 直 进 行 到 网 络 输 出 的 
误差 减少 到 可 接受 的 程度 ,或 进行 到 预先 设 定 的 学 习 次 数 为 止 。 

在 BP 神经 网 络 中 ,输入 信号 是 从 输入 层 到 隐 层 再 到 输出 层 传递 的 。 最 后 一 个 隐 层 与 
输出 层 之 间 的 连接 权 是 输出 误差 的 显 函 数 ,而 其 他 层 之 间 的 连接 权 则 是 输出 误差 的 隐 函 数 。 
如 果 神 经 元 的 作用 函数 是 连续 可 微 的 ,那么 每 一 连接 权 对 输出 误差 的 影响 都 可 以 由 误差 对 
权 值 的 偏 导数 定量 的 描述 。 此 时 如 果 把 权 值 按照 梯度 的 反方 向 修正 则 可 以 使 误差 减 小 。 这 
种 思想 便 是 BP 算法 的 本 质 。 详 细 计 算 方法 如 下 : 


设 取 拟 合 误差 的 代价 函数 为 
ng 六 
E=32 dn -zy = 2E, (8-14) 
p=1 i=1 乡 一 1 
即 
IT 总 
E, 一 于 2) (du xP) (8-15) 


问题 是 如 何 调整 连接 权 系数 以 使 代价 函数 最 小 。 优 化 计算 的 方法 很 多 ,比较 典型 的 是 
采用 一 阶梯 度 法 , 即 最 速 下 降 法 。 该 方法 的 关键 是 计算 优化 目标 函数 E( 即 上 述 的 误差 代价 
函数 ) 对 寻 优 参数 的 一 阶 导 数 。 依 次 从 输出 层 开始 计算 如 下 : 
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-07* 
Glo 


gq = Q,Q—1,…,1 


“ 6s 


由 于 


aE _ 六 aFE, 
9ag 本 4 go 
， Sy i 
所 以 应 着 重 讨论 后 的 计算 。 
时 
对 于 第 Q 层 有 
aF, aE, 9x® as!9 世 本 
6 ER Ds 元 亿 (dr 一 z) 太 CC 昌 )z829 =— Pz (8-16) 
中 a 有 Da 
其 中 


9 
6 -2 = (dyn — zp )F (sP) 
Spi 


Zp ,sp 及 x 如， 表示 利用 第 p 组 输入 样本 所 算得 的 结果 。 


pi Spi 
对 于 第 Q 一 1 层 有 
9E, _ aE, 3x » > aE, as azrte-D gs 
9m EE 6 人 PE os EE 5 Da 7 
"Q 
=(20%608 )f' GH" ) rg? =— 6 Vr? (8-17) 
k=1 
其 中 
Ge-D 一 OP 二 六 Vo (59-D ) 
pi 一 ( pk OR )f Sipi 
pi k=1 


显然 , 它 是 反 向 递 推 计算 的 公式 , 即 首先 计算 出 8 然后 再 由 上 式 递 推 计算 出 88- , 依 
次 类 推 , 可 继续 反 向 递 推 计算 出 889 和 52 (一 Q 一 2,…,1)。 从 上 式 看 出 ,在 88 的 表达 式 
中 包含 了 导数 项 /Gs 名) ,由 于 BP 网 络 使 用 S 形 丽 数 ,所 以 其 导数 可 求 得 如 下 ， 


Spt 
z= fs) = 一 二 
] 十 e wm 
< (人 
六 (9 和 = =pf (G9) — fs8)] = pr 1—zP) (8-18) 
pi 


最 后 可 归纳 出 BP 网 络 的 学 习 算 法 如 下 : 
WH (二 TI) = ol (k)+aDy (k++1), a>0 


于 
(9) 一 (gq) 《9 一 1) 
D¥ = > | 
p=1 
n+l 


e 
1 5 1 
08 = (2) dof pz (1—z®) 


89 = (dy — zx) pr (1— zx?) 
g = Q,Q—1, ,1si = 12 ns) = 1,2,° ,ng (8-19) 
该 网 络 实质 上 是 对 任意 非 线 性 映射 关系 的 一 种 允 近 ,由 于 采用 的 是 全 局 台 近 的 方法 , 因 
而 BP 网 络 具 有 较 好 的 泛 化 能 力 。 从 以 上 的 讨论 看 出 ,对 于 给 定 的 样本 集 ,目标 函数 是 全 
体 连 接 权 系数 @ 多 的 函数 。 因 此 ,要 寻 优 的 参数 8 个 数 比较 多 , 即 目标 函 数 已 是 关于 连接 
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权 的 一 个 非常 复杂 的 超 曲 面 ,这 就 给 寻 优 计算 带 来 一 些 问 题 。 一 个 最 大 的 问题 是 收敛 速度 
慢 ; 由 于 待 寻 优 的 参数 太 多 ,必然 导致 收敛 速度 慢 的 缺点 。 第 二 个 严重 缺陷 是 局 部 极 值 问 
题 , 即 已 的 超 曲 面 可 能 存在 多 个 极 值 点 。 按 照 上 述 的 寻 优 算法 , 它 一 般 收敛 到 初 值 附近 的 
局 部 极 值 , 所 以 连接 权 系数 的 初 值 选 取 很 重要 。 


8.2.3 BP 神 经 网 络 设计 


从 理论 上 说 ,只 要 有 足够 多 的 隐 层 和 隐 结 点 , 即 可 实现 复杂 的 映射 关系 。 其 中 隐 层 结 点 
数 的 选择 是 一 个 十 分 复杂 的 问题 ,目前 还 没有 很 好 的 解析 式 来 表示 , 隐 层 结 点 数 与 问题 的 要 
求 . 输 入 输出 单元 的 多 少 都 有 直接 的 关系 。 如 何 选取 最 佳 的 隐 层 结 点 数目 ,主要 参考 以 下 


公式 ， 
k= 2 Cn )sm = Vnt+m+t+am = lbn (8-20) 
i=0 


其 中 ,k 为 样本 数 ,n 为 输入 结 点 数 ,m 为 输出 样本 数 ,mm 为 隐 结 点 数 。 

神经 网 络 的 拓扑 结构 在 一 定 程度 上 影响 网 络 的 分 类 能 力 。BP 网 络 能 够 实现 输入 输出 
的 非 线性 映射 关系 ,但 它 并 不 依赖 于 模型 。 其 输入 输出 之 间 的 关联 信息 分 布地 存储 于 连接 
权 中 。 由 于 连接 权 的 个 数 很 多 ,个 别 神经 元 的 损坏 只 对 输入 输出 关系 有 较 小 的 影响 ,因此 
BP 网 络 具 有 较 好 的 容错 性 。 

BP 网 络 具 有 很 好 的 盘 近 非 线性 映射 的 能 力 , 因 而 它 可 应 用 于 数据 挖掘 .信息 处 理 ,图 像 
识别 等 多 个 方面 。 


8.3 月 组 织 特征 映射 (SOFMD) 神 经 网 络 


1981 年 芬兰 学 者 T. Kohonen 提出 了 自 组 织 特征 映射 网 络 模 型 (self-organizing 
feature map,，SOFM) 网 络 模型 。 这 种 网 络 由 可 以 自我 调整 连接 强度 的 神经 元 组 成 ,神经 元 
的 自 调 整 过 程 和 人 脑 的 自 组 织 过 程 相仿 : 各 个 神经 元 之 间 通 过 相互 的 侧 向 交互 作用 进行 竞 
争 , 以 近邻 者 相互 激励 . 远 邻 者 相互 抑制 的 规则 自 适应 地 组 织 形成 针对 某 类 特殊 信息 的 一 种 
结构 。 自 组 织 就 是 通过 调整 权重 使 神经 网 络 收敛 于 一 种 表示 形态 ,在 这 一 表示 形态 中 的 一 
个 神经 元 值 对 某 种 输入 模式 特别 匹配 或 特别 敏感 。 自 组 织 特征 映射 的 目的 ,就 是 使 神经 元 
的 权重 形态 表示 可 以 间接 模仿 输入 的 信号 模式 。 

SOFM 神经 网 络 对 一 个 输入 模式 实施 自学 习 算法 ,经 过 充分 的 学 习 后 ,网 络 各 神经 元 的 权 
重 趋向 于 按照 输入 空间 中 样本 的 密度 分 布 于 该 空间 中 ,每 一 个 神经 元 只 对 其 权重 周围 一 个 小 
空间 内 的 样本 响应 ,形成 输入 空间 到 神经 元 集 的 一 个 映射 ,而 且 神 经 元 之 间 形 成 一 种 特定 的 位 
置 关 系 ,使 得 在 输入 空间 中 相近 的 样本 映射 到 输出 层 神经 元 平面 相 邻 的 神经 元 上 。 这 样 ， 
SOFM 神经 网 络 便 通过 自学 习 形 成 了 一 个 对 输入 空间 的 内 部 表示 。 这 种 表示 一 方面 反映 原 空 
间 样 本 的 密度 分 布 , 另 一 方面 保持 原 空间 样本 之 间 的 拓扑 关系 ,这 些 信 息 被 高 度 压 缩 到 一 个 简 
单 的 有 限 个 结 点 的 平面 上 ,使 某 些 样本 在 空间 中 相对 集中 地 聚集 在 一 起 ,形成 了 聚 类 。 


8.3.1 SOFM 神经 网 络 的 拓扑 结构 


SOFM 神经 网 络 仅 由 输入 层 和 输出 层 两 层 构成 。 输 入 层 各 神经 元 通过 权 向 量 将 外 界 
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信息 汇集 到 输出 层 的 各 神经 元 。 输 入 层 的 形式 与 BP 网 
络 相同 , 结 点 数目 与 样本 维 数 相 等 。 输 出 层 也 是 竞争 
层 ,神经 元 的 排列 有 多 种 形式 ,如 一 维 线 阵 、 二 维 平面 和 
三 维 栅 格 阵 。 常 见 的 是 前 两 种 。 

如 图 8-5 所 示 , 网 络 上 层 是 竞争 层 也 是 输出 层 , 该 层 
所 有 神经 元 按照 任意 一 种 非 最 优 匹配 形式 排 成 一 个 邻 
域 结 构 。 根 据 该 结构 可 以 判别 各 神经 元 的 领域 内 和 该 
神经 元 的 领域 内 有 哪些 神经 元 。 网 络 下 层 为 输入 层 , 用 “图 8.5 SOFM 神 经 网 络 的 拓扑 结构 
于 接收 输入 模式 。 


8.3.2 SOFM 神经 网 络 聚 类 的 基本 算法 


SOFM 网 络 聚 类 的 基础 是 自 组 织 特 征 映射 学 习 , 运 用 侧 向 交互 作用 原理 ,在 每 个 最 优 
匹配 神经 元 附近 形成 一 个 * 聚 类 区 ”。 学 习 的 结果 总 是 使 聚 类 区 内 各 个 神经 元 的 权重 向 量 朝 
输入 向 量 值 逼 近 , 从 而 使 具有 相近 特性 的 输入 向 量 聚 集 在 一 起 。 学 习 后 的 SOFM 神经 网 络 
的 权重 能 够 代表 输入 向 量 的 特征 ,把 相似 的 输入 向 量 归 为 同一 类 ,并 由 权重 的 输出 值 来 指示 
所 代表 的 类 别 。SOFM 神经 网 络 学 习 算 法 的 核心 是 最 优 匹 配 神经 元 的 选择 和 权重 自 组 织 
过 程 。 选 择 最 优 匹配 神经 元 的 实质 是 选择 输入 模式 对 应 的 中 心神 经 元 ;权重 的 月 组 织 过 程 
则 是 根据 中 心神 经 元 调整 其 邻 域内 神经 元 的 权重 ,以 “墨西哥 帽 * 的 形态 来 使 输入 模式 得 以 
存放 。 每 进行 一 次 学 习 ,SOFM 神经 网 络 就 对 外 部 输入 模式 执行 一 次 自 组 织 适应 过 程 ,其 
结果 是 强化 现行 模式 的 映射 形态 ,弱化 以 往 模式 的 映射 形态 。Kohonen 证 明 在 学 习 结 束 
时 ,每 个 权重 向 量 都 近似 落 入 到 由 神经 元 所 应 类 别 的 输入 模式 空间 的 中 心 。 所 以 ,向 量 可 作 
为 这 个 输入 模式 的 最 优 参 考 向 量 。 针 对 有 m 个 样本 的 训练 集 , 基 本 SOFM 神经 网 络 算法 的 
步骤 描述 如 下 。 

(1) 初始 化 。 设 计 合 理 的 网 络 结构 ,并 将 各 个 权重 wj (0) 初 始 化 为 区 间 (0,1) 中 的 随机 
数 ,并 设 定 最 大 迭代 次 数 T(T 二 m) 和 学 习 率 及 优胜 邻 域 的 初始 值 。 

(2) 从 训练 集中 选取 一 个 输入 模式 X= 二 [Xu ,Xa ，… ,XmJ' ,其 中 = 二 1,2,…。 

(3) 计算 神经 元 ) 和 X4 之 间 的 距离 dj : 


dx = | XC—w,| [DN Ra 一 ty)2 i=1,2, nj =1,2,.,p (8-21) 
i=]1 


(4) 确定 最 优 匹配 神经 元 C,。C, 是 与 X 的 距离 最 小 的 神经 元 ,其 权重 ws 满足 : 
| Xi — wa = min{dn} (8-22) 
(5) 计算 最 优 匹配 神经 元 C, 和 优胜 邻 域 N.(z)。 优 胜 邻 域 的 大 小 一 半 用 邻 域 半径 表示 
rai 


rt) =G(1 一 到 (8-23) 


其 中 ,Ci 为 与 输出 层 结 点 数 相关 的 正常 数 。 
(6) 判断 各 个 神经 元 是 否 在 最 优 匹配 神经 元 的 领域 内 。 
(7) 调整 权重 。 按 下 式 对 N. (zt) 内 的 神经 元 进行 权重 调整 : 
ws = ws a(t)LX;— ws;] (8-24) 
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alt) -G1 到 ) (8-25) 


其 中 ,a(z) 表 示 学 习 率 。 且 a(?) 记 0 对 于 N. (7) 外 的 神经 元 ,其 权重 不 变 。C; 为 0~1 之 间 的 
常数 。 

(8) 当 t 一 T 或 学 习 率 和 邻 域 减 小 到 零 值 时 ,迭代 结束 并 输出 权重 向 量 rw (1) 作 为 结果 ; 
否则 , 转 步 骤 (2) 。 


8.3.3 SOFM 神经 网 络 学 习 算 法 分 析 


在 SOFM 算法 中 ,学 习 率 和 最 优 匹配 神经 元 的 领域 N.(z) 都 随和 迭代 次 数 上 的 变化 而 发 
生变 化 ,其 初 值 设置 和 变化 规律 的 选择 是 影响 算法 性 能 的 关键 所 在 。 

1. 学 习 率 

学 习 率 (1) 二 0, 在 实际 的 使 用 中 ,最 简单 的 方法 是 不 设置 初 值 a(0) ,直接 经 验 时 间 递 
减 函 数 。a(z) 三 1/t 作为 迭代 +t 次 时 的 学 习 率 。 另 外 一 种 常用 的 方法 是 将 初始 的 学 习 率 
a(0) 置 一 个 较 大 的 正 小 数 ,迭代 上 次 时 取 w(z) 一 (0)/, 但 是 ,使 用 ai) 一 1A 或 以 ab) 一 
a(0)/t 将 导致 随 迭 代 次 数 1 的 增加 学 习 率 下 降 的 速度 比较 陡峭 的 情况 发 生 , 如 果 将 总 迭代 
次 数 了 和 对 学 习 过 程 的 控制 有 机 联系 起 来 ,结合 当前 迭代 次 数 上 与 总 迭代 次 数 工 来 调整 学 
习 率 ,将 能 使 学 习 率 的 下 降 速 度 比较 平缓 ,表达 为 式 (8-25)。 学 习 率 从 开始 值 a(0) 按 迭代 
次 数 的 增加 而 逐渐 减 小 ,到 迭代 终止 到 达 零 值 。 

2. 邻 域 

邻 域 N. 是 以 神经 元 C 为 中 心 的 一 个 方形 或 圆 形 区 域 ,领域 N, 的 范围 可 由 该 区 域 所 包 
含 的 神经 元 数目 来 确定 。SOFM 神经 网 络 训练 确定 最 优 匹配 神经 元 之 后 ,需要 先 判断 其 他 
神经 元 是 否 落 在 最 优 匹 配 神经 元 邻 域 N. 内 。 最 后 ,再 对 落 在 最 优 匹配 神经 元 领域 N. 内 的 
神经 元 进行 权重 调整 。 邻 域 N. 是 时 变 的 ,初始 韶 值 N.(0) 一 般 包含 整个 输出 神经 元 阵列 。 
随和 迭代 次 数 上 的 增加 ,领域 N。 向 以 最 优 匹配 神经 元 为 中 心 的 小 范围 单调 变 小 ,最 后 应 缩小 
到 只 包含 单独 的 一 个 最 优 匹配 神经 元 。 随 迭代 次 数 的 增加 ,所 考虑 的 领域 N. 变 小 ;表达 为 
式 (8-23) 。 


8.4 Elman 神经 网 络 


Elman 神经 网 络 是 Elman 于 1990 年 提出 的 ,该 模型 在 前 馈 网 络 的 隐 含 层 中 增加 一 个 
承接 层 , 作 为 一 步 延 时 算 子 ,达到 记忆 的 目的 ,从 而 使 系统 具有 适应 时 变 特性 的 能 力 ,能 直接 
反映 动态 过 程 系 统 的 特性 。 


8.4.1 Elman 神经 网 络 的 拓扑 结构 


Elman 神经 元 网 络 一 般 分 为 4 层 : 输入 层 , 中 间 层 ( 隐 含 层 ) ,承接 层 和 输出 层 , 如 图 8-6 
所 示 。 其 输入 层 , 隐 含 层 和 输出 层 的 连接 类 似 于 前 馈 网 络 ,输入 层 的 单元 仅 起 信号 输入 作 
用 ,输出 层 单元 起 线性 加 权 作 用 。 隐 含 层 单元 的 传递 函数 可 采用 线性 或 非 线 性 函数 ,承接 层 
又 称 为 上 .下 层 或 状态 层 , 它 用 来 记忆 隐 含 层 单元 前 一 时 刻 的 输出 值 , 可 以 认为 是 一 个 一 步 
延 时 算 子 。 
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[| 
隐 合 层 (G0 而 ] … [G6] 承接 层 
1 
输入 层 


图 8-6 日 nan 神 经 网 络 的 拓扑 结构 


Elman 神经 元 网 络 的 特点 是 隐 含 层 的 输出 通过 承接 层 的 延迟 与 存储 , 自 联 到 隐 含 层 的 
输入 ,这 种 自 联 方式 使 其 对 历史 状态 的 数据 具有 敏感 性 ,内 部 反馈 网 络 的 加 入 增加 了 网 络 本 
身 处 理 动态 信息 的 能 力 , 从 而 达到 动态 建 模 的 目的 。 


8.4.2 Elman 神经 网 络 权 值 计算 


Elman 网 络 的 非 线 性 状态 空间 表达 式 为 
Y(A) = gCWIXCkR)), Xk) = FWIKXR) + WU — 1)), 
Xk) = Xk—1) (8-26) 
其 中 ,Y ,XX,U,X. 分 别 表 示 m 维 输出 点 向 量 ,n 维 中 间 层 结 点 单元 向 量 ,r 维 输入 向 量 入 
维 反馈 状态 向 量 。W ,W? ,W? 分 别 表示 隐 含 层 到 输出 层 、 输 入 层 到 隐 含 层 、 承 接 层 到 隐 含 
层 的 连接 权 值 ,gC(，) 为 输出 神经 单元 的 传递 函数 ,是 隐 含 层 输出 的 线性 组 合 , A(。) 为 中 间 
层 神经 元 的 传递 函数 , 常 采用 S 型 函数 。 
Elman 网 络 也 采用 BP 算法 进行 权 值 修 正 学 习 指 标 函 数 误 差 平 方 和 函数 : 
EW) = DYAW— WY, k=1,2,.%n (8-27) 
其 中 ,YC(W) 为 目标 输出 向 量 。 
具体 计算 方法 参见 第 8. 2. 2 小 节 的 BP 算法 。 另 隐 含 层 结 点 个 数 的 确定 也 可 参考 第 
8. 2. 3 小 节 的 公式 (8-20)。 


8.5 ”Hopfield 神经 网 络 


Hopfield 神经 网 络 是 1982 年 由 美国 加 州 理工 学 院 物理 学 家 J. J. Hopfield 教授 提出 
的 ,在 神经 网 络 中 引入 了 “能 量 函 数 ” 的 概念 ,是 最 著名 且 应 用 广泛 的 反馈 神经 网 络 。 反 馈 神 
经 网 络 是 指 拓扑 结构 中 有 环 路 的 神经 网 络 , 如 图 8-3(b) 所 示 。 反 馈 环 路 的 存在 ,使 得 网 络 
的 输出 部 分 影响 作用 于 网 络 的 输入 ,使 网 络 产 生动 态 特性 ,对 网 络 的 学 习 能 力 和 性 能 产生 深 
刻 的 影响 。 所 有 结 点 都 是 计算 结 点 ,同时 也 可 接受 输入 ,并 向 外 界 输出 。 即 在 反馈 网 络 中 ， 
信息 在 向 前 传递 的 同时 还 要 反 向 反馈 ,这 种 信息 反馈 可 以 发 生 在 不 同 网 络 层 神经 元 之 间 ,也 
可 以 只 局 限于 某 一 层 神经 元 上 。 

反馈 型 神经 网 络 如 果 总 结 点 (神经 元 ) 数 为 N, 那 么 每 个 结 点 有 NN 个 输入 和 1 个 输出 ， 
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也 就 是 说 ,所 有 结 点 都 是 一 样 的 ,它们 之 间 都 可 相互 连接 。 它 是 一 种 反馈 动力 学 系统 , 它 需 
要 工作 一 段 时 间 才 能 达到 稳定 。 在 反馈 型 神经 网 络 结构 中 ,整个 神经 网 络 的 输入 的 值 是 由 
其 输出 y;,i€E[L1,N] 通 过 某 种 反馈 机 制 计算 得 到 的 。 


8.5.1 Hopfield 神经 网 络 的 拓扑 结构 


Hopfield 神经 网 络 是 全 连接 的 反馈 网 络 , 其 网 络 结构 如 图 8.7 所 示 , 即 网 络 每 一 次 的 演 

化 结果 都 重新 作为 网 络 的 输入 ,并 且 重新 演化 ,主要 用 

于 联想 记忆 和 优化 计算 等。 
联想 记忆 是 指 当 网 络 输入 某 个 矢量 后 ,网 络 经 过 甬 

反馈 演化 ,从 网 络 输出 端 得 到 另 一 个 矢量 ,这 样 的 输出 

矢量 称 作 网 络 从 初始 输入 矢量 联想 得 到 的 一 个 稳定 记 

忆 , 即 网 络 的 一 个 平衡 点 。 优 化 计算 是 指 当 某 一 问题 

存在 多 种 算法 时 ,可 以 设计 一 个 目标 丽 数 ,然后 寻求 满 

足 这 一 目标 函数 的 最 优 和 解法。 例如 ,在 很 多 情况 下 可 以 把 能 量 画 数 作为 目标 函数 ,得 到 的 最 

优 解 法 需要 能 使 能 量 丽 数 达到 极 小 点 , 即 能 量 丽 数 的 稳定 平衡 点 。 总 之 , Hopfield 网 络 的 

设计 思想 就 是 在 初始 输入 下 ,使 网 络 经 过 反馈 计算 最 后 达到 稳定 状态 ,这 时 的 输出 就 是 用 户 

需要 的 平衡 点 。 


8.5.2 Hopfield 神经 网 络 学 习 算法 概述 


设 用 X(t) 表 示 网 络 在 时 刻 t 的 状态 ,如 果 从 t=0 的 任 一 初 态 X(0) 开 始 , 存 在 一 个 有 限 

的 时 刻 t, 使 得 从 此 时 刻 开始 ,神经 网 络 的 状态 不 再 发 生变 化 , 即 
X(t+At) = X(t), At>0 (8-28) 

就 称 此 网 络 是 稳定 的 。Hopfield 神经 网 络 主要 有 以 下 几 个 特点 。 

(1) 具有 对 称 的 神经 元 连接 权 值 矩阵 W, 即 Ws 三 Ws。 

(2) 无 自 反 馈 , 即 Wi 二 0。 

(3) 系统 有 稳定 解 ,不 同 的 状态 有 可 能 收敛 于 稳定 状态 ,又 称 不 动 点 吸引 子 ;或 者 发 生 
震荡 , 即 收敛 于 周期 二 吸引 子 。Marcus 等 人 证 明 具 有 对 称 权 值 矩阵 的 系统 只 有 不 动 点 周期 
二 吸引 子 和 吸引 子 的 解 。 


8.5.3 离散 Hopfield 神经 网 络 


离散 神经 网 络 模型 是 一 个 离散 时 间 系 统 ,每 个 神经 元 只 有 两 个 状态 ,可 以 用 1 和 0 来 表 
示 ,由 连接 权重 W; 所 构成 的 矩阵 是 一 个 对 角 线 为 0 的 对 称 和 矩阵 , 即 
本 人 二 让 
0， z 一 了 
如 果 用 z(z) 表 示 整 个 网 络 在 时 刻 t 的 状态 , 则 X 代表 网 络 中 每 个 人 工 神经 元 的 状态 。 
所 以 ,状态 向 量 X 中 的 分 量 个 数 就 是 网 络 中 人 工 神经 元 的 个 数 。 假 设 网 络 中 的 结 点 个 数 为 
72, 则 向 量 X 的 构成 如 下 : 
XT = [zi)vzz(t ii)owyZodt)] (8-30) 
ZXi(t) 表 示 结 点 i 在 时 刻 : 的 状态 ,该 结 点 在 时 刻 i 十 1 的 状态 由 下 式 决定 : 


图 8-7 Hopfield 神 经 网 络 的 拓扑 结构 


(8-29) 
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1， H:(t) 宇 0 
XiCG 十 1) 一 (8-31) 
0, H(t)=0 


这 里 ,Hi(D) 一 WsXi(D) 一 6， 其 中 的 Wi 为 i 到 结 点 j 的 连接 权重 ;0; 为 结 点 j 的 阅 值 。 


离散 型 Hopfield 网 络 有 两 种 工作 模式 。 

(1) 串 行 方式 ,是 指 在 任 一 时 刻 1, 只 有 一 个 神经 元 i 发 生 状态 变化 ,而 其 余 的 神经 元 保 
持 状态 不 变 。 

(2) 并 行 方式 ,是 指 在 任意 时 刻 上 ,都 有 部 分 或 全 体 神 经 元 同时 改变 状态 。 

有 关 离 散 Hopfield 网 络 的 稳定 性 问题 ,已 于 1983 年 由 Cohen 和 Gross berg 给 予 了 证 
明 。 而 Hopfield 等 人 又 进一步 证 明 , 只 要 连接 权 值 构成 的 矩阵 是 非 负 对 角 的 对 称 和 矩阵 , 则 
该 网 络 就 具有 串 行 稳 定性 。 


8.5.4 连续 Hopfield 神经 网 络 


Hopfield 网 络 是 一 种 非 线 性 的 动力 网 络 ,可 通过 反复 的 网 络 动 态 迭 代 来 解决 问题 。 在 
求解 某 些 问题 时 ,其 求解 问题 的 方法 与 人 类 求解 问题 的 方法 很 相似 ,虽然 所 求 得 的 解 不 一 定 
是 最 佳 解 ,但 其 求解 速度 快 ,更 符合 人 们 日 常 解决 问题 的 策略 。 

1984 年 ,Hopfield 提出 了 连续 时 间 的 神经 网 络 , 在 这 种 神经 网 络 中 ,各 结 点 可 在 0 和 1 
之 间 内 取 任 一 实数 值 。 连 续 型 Hopfield 网 络 的 输入 和 输出 为 连续 可 微 且 单 调 上 升 的 函数 ， 
每 个 神经 元 的 输入 是 一 个 随时 间 变 化 的 状态 变量 ,与 外 界 输 入 和 从 其 他 神经 元 来 的 偏 堂 信 
号 有 直接 关系 ,同时 也 与 其 他 神经 元 与 自身 之 间 的 连接 权 有 关系 。 状 态 变 量 直 接 影响 输入 
变量 ,使 系统 变 成 一 个 随时 间 变 化 的 动态 系统 。 

连续 型 Hopfield 神经 网 络 在 网 络 的 结构 上 与 离散 型 相同 , 且 状 态 方程 形式 上 也 相同 。 
连续 型 Hopfield 神经 网 络 状态 的 演变 过 程 用 微分 方程 描述 如 下 。 


1. 设置 互 连 权 值 
W,; = Sr a (8-32) 
0， 让 
其 中 ,z; 是 * 类 样 例 的 第 i 个 分 量 , 它 可 以 为 1 和 0, 样 例 类 别 数 为 m, 结 点 数 为 n。 
2. 未 知 类 别 初始 化 
0 三 二 作用 2 用 人 (8-33) 


其 中 ,y;(1) 为 结 点 i 在 t 时 刻 的 输出 , 当 1=0 时 ,y;(0) 就 是 结 点 i 的 初始 值 ,zx; 为 输入 样本 
的 第 i 个 分 量 。 
3. 迭代 直到 收敛 


n—l 
yttD= f(D WD), 0<j<n—1 (8-34) 
3 


其 中 f 为 闵 值 型 激发 函数 。 该 过 程 一 直 迭 代 到 不 青 改变 结 点 的 输出 为 止 。 这 时 ,各 结 点 的 
输出 与 输入 样 例 达 到 最 佳 匹 配 。 否 则 转 2 继续 。 
“ 168 = 


前 面 已 经 指出 , 当 Hopfield 模型 的 网 络 中 各 神经 元 的 连接 权 值 所 构成 的 矩阵 是 一 个 非 
负 对 角 的 对 称 矩 阵 , 或 者 是 一 个 非 负 定 和 矩阵 时 ,上 述 算法 都 是 收敛 的 。 


8.6 利用 SQL Server 2005 神经 网 络 进行 数据 挖掘 


Microsoft 神经 网 络 支持 Microsoft 决策 树 可 以 执行 的 所 有 任务 ,包括 分 类 .回归 和 关 
联 。 前 两 个 任务 是 神经 网 络 最 常见 的 任务 ,而 关联 任务 可 能 太 耗 时 和 耗资 源 ,所 以 一 般 不 推 
荐 使 用 神经 网 络 。 

以 下 是 Microsoft 神经 网 络 算法 的 几 个 参数 。 

(1) MAXIMUM_INPUT_ATTRIBUTES 参数 。 用 于 特征 选择 的 阅 值 参数 。 当 输入 
属性 的 数目 大 于 该 参数 的 设置 时 ,会 隐 式 的 调用 特征 选择 来 选择 最 重要 的 属性 。 

(2) MAXMUIM_OUTPUT_ATTRIBUTES 参数 。 用 于 特征 选择 的 阔 值 参数 。 当 可 
预测 的 属性 数目 大 于 该 参数 的 设置 时 ,会 隐 式 的 调用 特征 选择 来 选择 最 重要 的 属性 。 

(3) MAXIMUM_States 参数 。 它 指定 算法 所 支持 的 属性 状态 数目 的 最 大 值 。 如 果 一 
个 属性 所 拥有 的 状态 数目 大 于 状态 数目 的 最 大 值 , 则 算法 会 使 用 属性 的 出 现 最 频繁 的 状态 ， 
然后 将 剩 下 的 状态 认为 是 缺失 状态 。 

(4) Holdout_Percentage 参数 。 它 指定 测试 数据 的 百分比 。 测 试 数 据 用 于 在 训练 期 间 
验证 正确 性 。 默 认 值 为 0. 1。 

(5) Holdout_Seed 参数 。 它 是 一 个 整数 ,用 来 指定 种 子 ,该 种 子 用 于 选择 测试 数据 集 。 

(6) Hidden_Node_Ratio 参数 。 它 用 于 配置 隐 含 结 点 的 数目 。 隐 含 结 点 的 基数 为 sqrt 
(nXm), 其 中 是 输入 神经 元 的 数目 ,m 是 输出 神经 元 的 数目 。 如 果 Hidden_Node_Ratio 
等 于 2, 则 隐 含 结 点 数目 等 于 2X sqrt(nXm)。Hidden_Node_Ratio 的 默认 值 是 4。 

(7) Sample_Size 参数 。 它 指定 用 于 训练 的 事例 数目 的 上 限 ,默认 值 为 10000。 

(8) Microsoft 逻辑 回归 算法 参数 。 它 是 基于 Microsoft 神经 网 络 算法 的 实现 ,也 就 是 
将 Microsoft 神经 网 络 算法 的 参数 Hidden_Node_Ratio 设置 为 0,Microsoft 神经 网 络 算法 
就 变 成 了 Microsoft 钦 辑 回归 算法 。 如 果 使 用 Microsoft 神经 网 络 来 构建 一 个 没有 隐 含 层 
的 模型 , 则 会 获得 与 使 用 Microsoft 逻辑 回归 相同 的 结果 。 


8.6.1 数据 准备 


在 进行 数据 挖掘 之 前 ,需要 建立 “数据 源 " 和 “数据 源 视图 ”"。 本 章 的 实例 依然 沿用 第 5 
章 和 第 6 章 中 的 “商业 银行 信贷 "数据库, 对 数据 库 的 处 理 也 同 第 6. 5. 1 小 节 的 内 容 ,此 外 ， 
还 做 了 如 下 处 理 。 

对 该 数据 库 进 行 了 以 下 数据 类 型 转换 处 理 , 将 t_dm 表 中 用 作 输 入 列 ( 可 参见 表 6-4) 的 
文本 类 型 数据 转换 成 数值 类 型 ,来 满足 就 神经 网 络 对 数据 的 要 求 。 下 面 以 输入 列 “ 经 济 性 
质 ” 为 例 , 来 说 明 具 体 转 换 过 程 ,其 他 例 的 转换 也 是 类 似 的 。 

(1) 统计 输入 列 中 不 同类 别 的 个 数 ,SQL 实现 语句 及 执行 结果 如 图 8-8 所 示 。 

(2) 根据 第 (1) 步 统计 信息 用 数值 来 替代 文本 数据 ,SQL 实现 语句 及 执行 结果 如 图 8-9 
所 示 。 
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select count (*) ,经 济 性 质 From t_dm group by 经 济 性 质 


(a) 统计 类 别 SQL 语 

国 结果 | 国清 息 | 
玩 列 名 ] | 经 济 性 质 

1 个 体 
2 1 研究 所 
3 408 股份 合作 
4 5 民营 
5 208 其 地 
6 ?2 三 
7_|1 部 队 
8 18 学 校 
9 1262 国有 
10_ 419 集体 
1 1 联营 
12 页 其 他 股份 制 
13 13 外 贸 
14 15 医院 
15 38 机 关 团体 
16 496 国有 控股 
17 106 和 肛 秋 
18 74 集体 控股 


(b) 执行 结果 
图 8-8 统计 类 别 个 数 的 实现 


辐 消 息 
tz6z 行 要 影响 } 
(55 行 受 影响 ) 
update t_dm where 《4z08 行 妥 影响 ) 
update t_dm where 《se 行 要 影响 ) 
update t_dm set 经 济 性 质 -,3，where 经 (36 行 要 影响 } 
update t_dm set 经济 性 质 -'4， where 经 as 
update t_dm set 经 济 性 质 =-'5，where 经 济 性 质 =' 民 营 ， 区 
De where 缠 济 性 质 - ,集体 ' a NN) 
update t_dm where 经 济 性 质 =， 《406 行 受 影响 》 
update t_dm where 经 济 性 | oz 行 要 影响 
update t_dm set 经 济 性 质 ='9，where 经 济 性 质 =， 三 (a0e 行 妥 册 区 ) 
update t_dm set 经 济 性 质 ='10，where 经 济 性 质 =' 股 份 合作 ' te Fe 
update t_dm set 经 济 性 质 -,11，where 经 济 性 质 =' 集 体 控股 ， 
update t_dm set 经 济 性 质 -,12，where 经 济 性 质 -, 研 究 所 ， 全 行 爱 影 响 ) 
update t_dm set 经 济 性 质 -,13，where 经 济 性 质 =, 机 关 团体 ， (38 行 受 影响 ) 
update t_dm set 经 济 性 质 =-'14，where 经 党 ， 45 行 受 影 响 ) 
update t_dm set 经 济 性 质 ='15' where 经 济 性 质 =' 学 校 ， as 行 受 影响 ) 
update t_dm set 经 济 人 性 质 ='16' where 
update t_dm set 经 济 性 质 ='17' where eR 
update t_dm set 经 济 性 质 -,18，where 经 济 性 质 -, 联 营 ， 全 行 受 影响 
(a) 更 新 表 中 数据 SQL 语句 (b) 执行 结果 


图 8-9 更 新 表 中 数据 
所 有 输入 列 经 过 以 上 两 步 处 理 之 后 ,部 分 t_dm 表 中 数据 如 图 8-10 所 示 。 
8.6.2 挖掘 流程 


(1) 右 击 项 目 Neutral Network 下 的 “挖掘 结构 ”, 从 弹出 的 快捷 菜单 中 选择 “新 建 挖掘 
结构 ”, 打 开 “ 数 据 挖掘 向 导 ” 对 话 框 , 单 击 “ 下 一 步 "按钮 ,弹出 “选择 定义 方法 "对话 框 , 单 击 
“下 一 步 " 按 钮 ,弹出 “选择 数据 挖掘 技术 ”对 话 框 。 

(2) 在 如 图 8-11 所 示 的 对 话 框 中 .下 拉 列 表 框 中 选取 “Microsoft 神经 网 络 ” 选 项 , 单 击 
“下 一 步 ?按钮 ,进行 下 一 步 操作 。 
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客户 类 型 经 济 性 质 隶 必 关系 法 人 资格 


客户 状态 本 点 标志 


K121 单 位 
Ikizi 单 位 
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选择 数据 控 据 技术 
选择 对 于 您 正 执行 的 分 析 类 型 来 说 最 适用 的 数据 控 据 技术。 


悠 要 使 用 何 种 数据 挖 气 技 术 (D? 


Microsoft 神经 网 络 


回 


于 高 散 属性 的 分 类 和 演 续 | 有 


Microsoft 神经 网 络 算法 使 用 化 多 屋 网 络 的 参数 ， 以 预测 多 个 属性 。 它 可 以 用 


[Et = [Ese] | 三 gtD >>| 


图 8-11 选择 数据 挖掘 技术 


sli) 


(3) 如 图 8-12 所 示 ,在 “选择 数据 源 视 图 "页 面 的 “可 用 数据 源 视 图 ”列表 中 显示 了 前 面 
步骤 创建 的 bank 数据 源 视图 ,选中 该 视图 选项 , 单 击 “ 下 一 步 "按钮 ,进行 下 一 步 操 作 。 


数据 挖掘 向 导 


择 数据 源 视 图 
选择 为 挖 据 结构 提供 数据 的 数据 源 视 图 。 


完成 (BD >>| 


图 8-12 选择 数据 源 视图 


2 治 


(4) 如 图 8-13 所 示 ,在 “指定 表 类 型 "页 面 中 可 以 看 到 bank 数据 源 视图 包含 的 数据 表 ， 
勾 选 “t_dm” 选 项 右边 的 “事例 ” 复 选 框 ,可 以 将 其 定义 为 事例 表 ; 单 击 “ 下 一 步 ” 按 钮 ,进行 下 
一 步 操作 。 


《 数据 挖掘 向 导 


指定 表 类 型 
指定 分 析 时 要 使 用 的 表 类 型 。 


输入 表 (D 


图 8-13 指定 表 类 型 
(5) 如 图 8-14 所 示 ,在 "指定 数据 类 型 "页面 显 示 了 挖掘 模型 结构 ,在 各 个 选项 右边 勾 
选 不 同 的 复 选 框 ,可 参照 表 6-4 完成 ,然后 单 击 “ 下 一 步 " 按 钮 ,进行 下 一 步 操作 。 


ED ER 


指定 定型 孝 据 
指 宏 多 本 中 其 用 的 鸣 |。 


§ 
上 


oonRRnaRnnaaann 


问 
中 
本 
Sl 
加 
而 
而 
加 
可 
仙 
四 
机 
加 


maoooomooooonoooa | 


回国 区 攻占 蝇 口 日 口 罗 口 日 口 双 


当 各 寺 的 大 和 内容 江华 失 和 于 


上 步 思 | 下 -和 人 ADzz | 到 玫 | 


图 8-14 指定 数据 类 型 


(6) 如 图 8-15 所 示 ,经 过 “检测 ?将 指定 数字 列 , 即 “次 级 "“ 关 注 ?“ 可 疑 "“ 损 失 ”“ 余 
额 ” 和 "正常 ?的 连续 值 转换 成 离散 值 , 即 0 或 1. 也 与 第 6.5. 1 小 节 中 做 的 数据 处 理 对 应 起 
来 。 在 “指定 列 的 内 容 和 数据 类 型 ”页面 中 显示 了 指定 “ID? 的 内 容 类 型 为 Key,“ 余 额 ” 的 内 
容 类 型 为 Continuous ,其 余 列 内 容 类 型 均 为 Discrete;ID 的 数据 类 型 为 long, 其 余 各 列 数据 
类 型 均 为 Double, 单 击 “ 下 一 步 ” 按 钮 ,进行 下 一 步 操作 。 

(7) 如 图 8-16 所 示 , 在 “完成 向 导 ” 页 面 中 将 数据 挖掘 结构 命名 为 t_Dml , 单 击 * 完 成” 
按钮 ,完成 挖掘 结构 的 创建 。 

(8) 单 击 “ 挖 掘 准确 性 图 表 ” 选 项 卡 下 的 “提升 图 ”和 “分 类 和 矩阵 ”, 其 结果 如 图 8-17 和 
图 8-18 所 示 。 


全 人 所 


图 8-15 指定 列 的 内 容 和 数据 类 型 


导 
为 挖 据 结构 提供 名 称 ， 从 而 充 成 数据 挖 据 向 导 . 


|] 口 允许 外 职 (D 
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图 8-17 ”人 钦 级 " 提升 图 
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图 8-18 中 上 方 的 线 代 表 神 经 网 络 建立 的 预测 模型 ,下 方 的 线 代 表 实际 模型 ,可 以 看 出 
两 者 是 基本 匹配 的 ,说 明 预 测 模型 比较 理想 ;图 8-18 中 ,对 “次 级 ”二 1 的 预测 结果 是 无 差错 
的 ,对 “次 级 ”=0 的 预测 结果 有 7.9% 的 误差 。 
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图 8-18 ”次 级 ”分 类 矩阵 图 


小 结 


本 章 介 绍 了 数据 挖掘 的 智能 方法 -人 工 神 经 网 络 。 首 先 介绍 了 人 工 神经 网 络 的 基本 原 
理 ,包括 人 工 神 经 元 的 基本 构成 和 各 种 的 学 习 规 则 ;然后 分 别 介 绍 了 数据 挖掘 中 常用 的 BP、 
神经 网 络 .SOFM 神经 网 络 .Elman 神经 网 络 和 Hopfield 神经 网 络 4 种 网 络 , 主 要 介绍 它们 
的 神经 元 特性 、 网 络 拓扑 结构 和 学 习 算 法 三 要 素 ; 最 后 通过 实例 说 明了 在 SQL Server 2005 
中 利用 神经 网 络 进行 数据 挖掘 的 过 程 。 


习题 8 


.BP 神经 网 络 有 哪些 优 缺 点 ? 试 各 列举 3 条 。 
. 人 工 神经 元 有 哪些 性 质 ? 

. SOFM 神经 网 络 的 学 习 算 法 步骤 ? 

. BP 神经 网 络 与 SOFM 神经 网 络 的 异同 ? 

. 人 工 神经 网 络 常用 的 学 习 规则 有 哪些 ? 


本 
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第 9 章 聚 类 分 析 


聚 类 (Clustering) 分 析 是 数据 挖掘 技术 的 重要 组 成 部 分 , 它 能 从 潜在 的 数据 中 发 现 有 意 
义 的 数据 分 布 模式 ,已 经 广泛 应 用 于 模式 识别 .数据 分 析 、 图 像 识别 及 其 他 许多 方面 。 聚 类 
是 在 事先 不 规定 分 组 规则 的 情况 下 ,将 数据 按照 其 自身 特征 划分 成 不 同 的 群 组 。 甚 重要 特 
征 是 “ 物 以 类 聚 ", 即 要 求 在 同一 类 的 数据 对 象 尽 可 能 的 相似 ,在 不 同类 的 数据 对 象 尽 可 能 的 
相 异 。 聚 类 和 分 类 的 根本 区 别 在 于 : 分 类 需要 事先 知道 所 依据 的 对 象 特征 ,而 聚 类 是 在 不 
知道 对 象 特征 的 基础 上 要 找到 这 个 特征 。 聚 类 分 析 的 方法 很 多 ,其 中 包括 基于 划分 的 聚 类 
方法 、 基 于 层次 的 聚 类 方法 、 基 于 密度 的 聚 类 方法 ,基于 网 格 的 聚 类 方法 和 谱 聚 类 方法 等 。 


9.1 聚 类 概述 


9.1.1 聚 类 简介 


将 物理 或 抽象 对 象 的 集合 分 组 成 为 由 类 似 的 对 象 组 成 的 多 个 类 的 过 程 被 称 为 聚 类 。 由 
聚 类 所 生成 的 篮 是 一 组 数据 对 象 的 集合 ,这 些 对 象 与 同一 个 簇 中 的 对 象 彼此 相似 ,与 其 他 簇 
中 的 对 象 相 异 。 在 许多 应 用 中 ,可 以 将 一 个 簇 中 的 数据 对 象 作 为 一 个 整体 来 对 待 。 

聚 类 分 析 已 经 广泛 地 应 用 于 模式 识别 .数据 分 析 、 图 像 处 理 以 及 市 场 研究 等 许多 领域 
中 。 在 商务 领域 , 聚 类 能 帮助 市 场 分 析 人 员 从 客户 基本 库 中 发 现 不 同 的 客户 群 ,并 且 用 购买 
模式 来 刻画 不 同 客户 群 的 特征 。 在 生物 学 领域 , 聚 类 能 对 基因 进行 分 类 ,获得 对 种 群 中 固有 
结构 的 认识 。 聚 类 也 能 用 于 对 Web 文档 进行 分 类 ,以 发 现 信息 。 

作为 一 个 数据 挖掘 的 功能 , 聚 类 分 析 能 作为 一 个 独立 的 工具 来 获得 数据 分 布 的 情况 , 观 
察 每 个 复 的 特点 ,集中 对 特定 的 某 些 簇 做 进一步 分 析 。 此 外 , 聚 类 分 析 可 以 作为 其 他 算法 
(如 特征 选择 和 分 类 等 ) 的 预 处 理 步骤 。 


9.1.2 聚 类 的 定义 


在 数据 空间 尺 中 ,数据 集 X 由 许多 数据 点 (或 数据 对 象 ) 组 成 ,数据 点 X; 二 (Xn ，…， 
Xa) EE 以， Xi 的 每 个 属性 XX; 既 可 以 是 数值 型 的 ,也 可 以 是 枚 举 型 的 。 假 设 数据 集中 有 NN 
个 对 象 和 X;(i 二 1,2,… ,NN) ,数据 集 匀 相当 于 一 个 N Xd 的 矩阵 。 聚 类 的 最 终 目的 就 是 把 数 
据 集 和 划分 为 & 个 分 割 Cs (m= 二 1,2,…,k) ,也 可 能 有 些 对 象 不 属于 任何 一 个 分 割 ,这 些 就 
是 噪声 C,。 所 有 这 些 分 割 与 噪声 的 并 集 就 是 数据 集 生 ,并 且 这 些 分 割 之 间 没 有 交集 , 即 

芝 二 Gv UG WG: 
la NG=8 (Qii<kh,iz)) 
这 些 分 割 C, (m 二 1,2,…,k) 就 是 聚 类 。 


9.1.3 聚 类 的 要 求 
数据 挖掘 对 聚 类 算法 有 如 下 要 求 。 
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1. 可 伸缩 性 

许多 聚 类 算法 在 小 于 200 个 数据 对 象 的 小 数据 集合 上 工作 得 很 好 。 但 是 一 个 大 规模 数 
据 库 往往 可 能 包含 几 百 万 个 对 象 ,一 些 聚 类 算法 在 这 样 的 大 数据 集合 上 进行 聚 类 分 析 可 能 
会 得 到 有 偏差 的 结果 。 所 以 一 个 好 的 聚 类 算法 应 具有 高 度 可 伸缩 性 。 

2. 处 理 不 同类 型 属性 的 能 力 

聚 类 通常 用 于 处 理 数 值 型 数据 ,但 也 有 可 能 被 要 求 处 理 其 他 类 型 的 数据 ,如 二 元 类 型 ， 
分 类 / 标 称 类 型 ,序数 型 数据 ,或 者 这 些 数据 类 型 的 混合 。 所 以 一 个 好 的 聚 类 算法 应 具有 处 
理 不 同类 型 属性 的 能 力 。 

3. 发 现任 意 形状 的 聚 类 

许多 聚 类 算法 基于 欧 几 里 得 距离 或 曼 哈 坦 距离 。 基 于 距离 度量 的 算法 趋 于 发 现 具 有 相 
近 尺 度 和 密度 的 球状 徐 。 但 是 ,一 个 簇 可 能 是 任意 形状 的 ,因此 提出 能 发 现任 意 形状 簇 的 聚 
类 算法 是 很 重要 的 。 

4. 使 输入 参数 的 领域 知识 最 小 化 

许多 聚 类 算法 在 聚 类 分 析 中 要 求 用 户 输入 一 些 参 数 ,例如 希望 产生 的 簇 的 数目 。 聚 类 
结果 对 于 输入 参数 十 分 敏感 ,然而 参数 通常 很 难 确定 ,特别 是 对 于 包含 高 维 对 象 的 数据 集 来 
说 ,更 是 如 此 。 一 个 好 的 聚 类 算法 应 包含 尽量 少 的 输入 参数 。 

5. 处 理 噪 声 数据 的 能 力 

绝 大 多 数 的 数据 库 都 包含 了 孤立 点 、 空 缺 . 未 知 数据 或 错误 的 数据 。 一 些 聚 类 算法 对 这 
样 的 数据 敏感 ,可 能 导致 低 质 量 的 聚 类 结果 。 因 此 一 个 好 的 聚 类 算法 应 该 具备 较 强 地 处 理 
噪声 的 能 力 。 

6. 对 于 输入 记录 的 顺序 不 敏感 

一 些 聚 类 算法 对 于 输入 数据 的 顺序 敏感 。 例 如 ,同一 个 数据 集合 , 当 以 不 同 的 顺序 提交 
给 同一 个 算法 时 ,可 能 生成 差别 很 大 的 聚 类 结果 。 因 此 对 数据 输入 顺序 的 不 敏感 也 是 一 个 
好 的 聚 类 算法 所 应 该 具备 的 。 


9.2 聚 类 分 析 中 的 相 异 度 计算 


9.2.1 聚 类 算法 中 的 数据 结构 


假设 要 聚 类 的 数据 集合 包含 个 数据 对 象 ,这 些 数据 对 象 可 能 表示 人 、 房 子 、 文 档 、 国 家 
等 。 聚 类 算法 通常 采用 如 下 两 种 具有 代表 性 的 数据 结构 。 

1. 数据 和 矩阵 (或 对 象 与 变量 结构 ) 

数据 矩阵 是 用 p 个 变量 (也 称 为 度量 或 属性 ) 来 表现 个 对 象 ,例如 用 学 号 姓名、 年 
龄 ,性 别 、 民 族 、 所 在 系 等 属性 来 表现 对 象 “ 学 生 ”"。 这 种 数据 结构 是 关系 表 的 形式 ,或 看 作 
nXp(ln 个 对 象 Xp 个 变量 ) 的 矩阵 。 


ee 
Be (9-2) 
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2. 相 异 度 和 矩阵 ( 或 对 象 -对 象 结构 ) 
相 异 度 和 矩阵 存储 n 个 对 象 两 两 之 间 的 近似 性 ,表现 形式 是 一 个 nXn 维 的 矩阵 。 
相 异 度 和 矩阵 元 素 d(i,j) 是 对 象 i 和 对 象 j 之 间 相 异性 的 量化 表示 ,通常 它 是 一 个 非 负 
的 数值 , 当 对 象 i 和 对 象 ) 越 相似 或 接近 时 ,其 值 越 接 近 0; 两 个 对 象 越 不 同 ,其 值 越 大 。 其 
中 dGi, 让 =d0j ,站 ,d(i, 让 二 0, 则 可 以 得 到 如 下 的 矩阵 表示 。 
0 


d(2,1) 0 
d(3,1) d(3,2) 0 (69-3) 
d(n,1) d(n,2) d(n,3) … 0 


数据 矩阵 因为 其 行 和 列 代表 不 同 的 实体 ,经 常 被 称 为 二 模 和 矩阵 ;而 相 异 度 和 矩阵 因为 其 行 
和 列 代表 相同 的 实体 ,被 称 为 单 模 矩阵 。 许 多 聚 类 算法 以 相 异 度 和 矩阵 为 基础 ,所 以 如 果 数 据 
是 用 数据 矩阵 的 形式 表现 的 ,在 使 用 算法 之 前 要 将 其 转化 为 相 异 度 和 矩阵 。 

下 面 将 详细 介绍 相 异 度 的 计算 问题 。 首 先 介绍 如 何 计算 用 区 间 标 度 变量 ,二 元 变量 , 标 
称 、 序 数 和 比例 标 度 变量 ,或 这 些 变 量 类 型 的 组 合 来 描述 的 对 象 相 异 度 。 


9.2.2 区 间 标 度 变量 及 其 相 异 度 计算 


1. 区 间 标 度 变量 

区 间 标 度 变量 是 一 个 粗略 线性 标 度 的 连续 变量 。 典 型 的 例子 包括 重量 和 高 度 、 经 度 和 
纬度 坐标 以 及 大 气温 度 等 。 

选用 度量 单位 将 直接 影响 聚 类 分 析 的 结果 。 例 如 ,将 高 度 的 度量 单位 由 “ 米 ” 改 为 “ 英 
寸 ”, 或 者 将 重量 的 单位 由 “千克 ” 改 为 “ 磅 ”, 可 能 产生 非常 不 同 的 聚 类 结构 。 一 般 而 言 ,所 用 
的 度量 单位 越 小 ,变量 可 能 的 值 越 大 ,这 样 对 聚 类 结果 的 影响 也 越 大 。 

为 了 避免 对 度量 单位 选择 的 依赖 ,数据 应 当 标 准 化 。 标 准 化 度量 值 试 图 给 所 有 的 变量 
相等 的 权重 。 当 没有 关于 数据 的 先 验 知识 时 ,这样 做 是 非常 有 用 的 。 

为 了 实现 度量 值 的 标准 化 , 当 给 定 一 个 变量 f 的 值 后 .可 以 进行 如 下 的 变换 。 

(1) 计算 平均 的 绝对 偏差 Sy 。 


Sr Ld zy —ms | 十 | zar — ms | 十 … 十 | zy 一 ar |) (9-4) 
其 中 ,xij…zw 是 了 的 n 个 度量 值 ,mj 是 了 的 平均 值 , 即 
ms = et tr) (9-5) 


(2) 计算 标准 化 的 度量 值 z-score。 


zy = TA (9-6) 
2. 相 异 度 计 算 
在 标准 化 处 理 后 ,或 者 在 某 些 应 用 中 不 需要 标准 化 ,对 象 间 的 相 异 度 ( 或 相似 度 ) 是 基于 
对 象 间 的 距离 来 计算 的 。 


最 常用 的 距离 度量 方法 是 欧 几 里 得 距离 , 它 的 定义 如 下 : 
Ch vy 读 


d(i,j) = 


另 一 个 著名 的 度量 方法 是 曼 哈 坦 距离 ,其 定义 如 下 : 


d(i,j) =| za 一 2 | 十 | za 一 Za | 十 … 十 | ze 一 Zio | 


lz = ii la = 二 Tl zy = zp | 


其 中 ,i 二 (za ,xa,… ,zw) 和 j 一 (zxn ,ziz，… ,zjp ) 是 两 个 p 维 的 数据 对 象 。 


97% 


(9-8) 


如 果 对 每 个 变量 根据 其 重要 性 赋予 一 个 权重 ,加 权 的 欧 几 里 得 距离 可 以 计算 如 下 : 


di 让) = 
加 权 也 可 用 于 曼 哈 坦 距离 。 


二 元 变量 及 其 相 异 度 计算 
1. 二 元 变量 


Ly Pe 


wi | za—zal tw | za mz | tw, | zo — zi | 


(9-9) 


一 个 二 元 变量 只 有 0 或 1 两 个 状态 。0 表示 该 变量 为 空 ,1 表示 该 变量 存在 。 例 如 ,给 


出 一 个 描述 病人 的 变量 smoker,1 表示 病人 抽烟 ,而 0 表示 病人 不 抽烟 。 


2. 相 异 度 计算 


如 果 假 设 所 有 的 二 元 变量 有 相同 的 权重 ,得 到 如 表 9-1 的 一 个 表格 。 在 表 中 ,g 是 对 于 
对 象 ; 和 j 都 为 1 的 变量 数目 ,~ 是 对 于 对 象 i 值 为 1 而 对 象 ) 值 为 0 的 变量 数目 ,s 是 对 于 
对 象 ; 值 为 0 而 对 于 对 象 j 值 为 1 的 变量 数目 ,t 是 对 于 对 象 i 和 j 值 都 为 0 的 变量 数目 。 


变量 的 总 数 是 p,p 二 gq 十 r 十 s 十 t。 


表 9-1 二 元 变量 的 可 能 性 表 


对 象 j 


对 象 i 


求 和 q+s 


rit 


对 于 一 个 二 元 变量 ,如 果 它 的 两 个 状态 有 相同 的 权重 ,那么 该 二 元 变量 是 对 称 的 ,也 就 
是 两 个 取 值 0 或 1 没有 优先 权 , 例 如 性 别 变 量 。 基 于 对 称 二 元 变量 的 相似 度 称 为 恒定 的 相 
似 度 , 即 当 一 些 或 者 全 部 二 元 变量 编码 改变 时 ,计算 结果 不 会 发 生变 化 。 对 恒定 相似 度 来 


说 ,评价 两 个 对 象 i 和 j 之 间 相 异 度 的 最 著名 的 系数 是 简单 匹配 系数 ,定义 如 下 : 


d(i,j) = — 


3 


rts 


(9-10) 


如 果 两 个 状态 的 输出 不 是 同样 重要 ,那么 该 二 元 变量 是 不 对 称 的 。 例 如 一 个 疾病 检查 
的 肯定 和 否定 结果 。 根 据 惯例 ,将 比较 重要 的 输出 结果 ,通常 也 是 出 现 几率 较 小 的 结果 编码 
为 1( 例 如 , 患 病 ) ,而 将 另 一 种 结果 编码 为 0( 例 如 , 没 病 )。 给 定 两 个 不 对 称 的 二 元 变量 ,两 
个 都 取 值 1 的 情况 ( 正 匹 配 ) 被 认为 比 两 个 都 取 值 0 的 情况 ( 负 匹 配 ) 更 有 意义 。 基 于 这 样 变 
量 的 相似 度 被 称 为 非 恒定 的 相似 度 。 对 于 非 恒定 的 相似 度 , 最 著名 的 评价 系数 是 Jaccard 
系数 ,在 计算 中 , 负 匹配 的 数目 上 被 认为 不 重要 的 ,因此 被 忽略 。 


hs 


4d) = Fr 
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当 对 称 和 非 对 称 的 二 元 变量 出 现在 同一 个 数据 集中 ,可 以 应 用 混合 变量 方法 。 举 例 说 
明 如 下 。 

假设 一 个 如 表 9-2 所 示 的 病人 记录 表 包 含 属性 姓名 ,性别 ,发 烧 , 咳 嗽 ,有 测试 -1, 测 试 -2， 
测试 -3 和 测试 -4 数据 。 


表 9-2 病人 记录 属性 的 关系 表 
姓名 性 别 发 烧 咳嗽 测试 -1 测试 -2 测试 -3 测试 -4 


“姓名 ?是 对 象 标识 ,性 别 ? 是 对 称 的 二 元 变量 ,其 余 的 属性 都 是 非 对 称 的 二 元 变量 。 对 
于 非 对 称 属性 , 值 Y 和 已 被 置 为 1, 值 N 被 置 为 0。 假 设 对 象 (病人 ) 之 间 的 距离 只 基于 非 对 
称 变量 来 计算 。 根 据 Jaccard 系数 公式 ,三 个 病人 两 两 之 间 的 相 异 度 如 下 : 


三 , 王 PE 0 十 1 es 
d( 张 三 , 王 五 ) 二 507 一 033 
a 二 .三 二 下 二 一 
d( 张 三 , 李 四 ) = 了 二 J 十 7 一 0.67 

1 填 2 
| E = = 
d( 李 四 , 王 五 ) 二 了 十 T 寺 3 一 0.75 


上 面 的 值 显示 李 四 和 王 五 不 可 能 有 相似 的 疾病 ,因为 他 们 有 着 最 高 的 相 异 度 。 在 这 3 
个 病人 中 , 张 三 和 王 五 最 可 能 有 类 似 的 疾病 。 


9.2.4 标 称 型 变量 及 其 相 异 度 计算 


1. 标 称 型 变量 

标 称 变量 是 二 元 变量 的 推广 , 它 可 以 具有 多 于 两 个 的 状态 值 。 例 如 ,颜色 是 一 个 标 称 变 
量 , 它 可 能 有 5 个 状态 : 红色 、 蓝 色 、 黄 色 、 绿 色 和 紫色 。 

假设 一 个 标 称 变量 的 状态 数目 是 M。 这 些 状态 可 以 用 字母 ,符号 或 者 一 组 整数 (如 0， 
1,2,… ,MD) 来 表示 。 要 说 明 的 是 ,这 里 的 整数 只 是 代表 不 同 状态 ,没有 任何 顺序 含义 。 

2. 相 异 度 计 算 

两 个 对 象 i 和 j 之 间 的 相 异 度 可 用 简单 匹配 方法 来 计算 : 


d(i,)) Fe (9-12) 


其 中 ,m 是 匹配 的 数目 , 即 i 和 j 取 值 相同 的 变量 的 数目 ,而 p 是 全 部 变量 的 数目 。 可 以 通 
过 赋 权 重 来 增加 mm 的 影响 ,或 者 赋 给 有 和 较 多 状态 的 变量 匹配 以 更 大 的 权重 。 

此 外 ,通过 为 每 个 标 称 状态 创建 一 个 新 的 二 元 变量 ,可 以 用 非 对 称 的 二 元 变量 来 编码 标 
称 变量 。 对 一 个 有 特定 状态 的 对 象 ,对 应 该 状态 值 的 二 元 变量 值 为 1, 其 余 的 二 元 变量 值 为 
0。 例 如 ,为 了 对 颜色 变量 进行 编码 ,对 应 于 上 面 的 5 种 颜色 分 别 创建 一 个 二 元 变量 。 如 果 
一 个 对 象 是 黄色 ,那么 yellow 变量 被 赋值 为 1 ,而 其 余 的 变量 赋值 为 0。 对 这 种 形式 的 标 称 
变量 编码 ,可 以 用 计算 二 元 变量 相 异 度 的 方法 来 计算 。 
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9.2.5 序数 型 变量 及 其 相 异 度 计算 


1. 序数 型 变量 
一 个 离散 的 序数 型 变量 类 似 于 标 称 变量 ,与 标 称 标量 的 区 别 是 序数 型 变量 的 M 个 状态 

是 以 有 意义 的 序列 排序 的 ,而 标 称 变量 没有 任何 顺序 含义 。 序 数 型 变量 对 记录 那些 难以 客 
观 度量 的 主观 评价 是 非常 有 用 的 。 例 如 ,职称 的 排列 经 常 按 某 个 顺序 ,例如 教授 、 副 教授 、 讲 
师 、 助 教 。 

一 个 连续 序数 型 变量 看 起 来 像 一 个 刻度 未 知 的 连续 数据 的 集合 ,也 就 是 说 , 值 的 相对 顺 
序 是 重要 的 ,而 其 实际 大 小 是 不 重要 的 。 

将 区 间 标 度 变 量 的 值 域 划分 为 有 限 个 区 间 , 从 而 将 其 值 离散 化 ,也 可 得 到 序数 型 变量 。 
一 个 序数 型 变量 的 值 可 以 映射 为 秩 (order)。 例 如 ,假设 一 个 序数 型 变量 有 My 个 状态 ,这 
些 有 序 的 状态 定义 了 一 个 排列 1,2,… ,Mj。 

2. 相 异 度 计算 

计算 对 象 的 相 异 度 时 ,序数 型 变量 的 处 理 与 区 间 标 度 变量 的 处 理 非常 类 似 。 序 数 型 对 
象 间 的 相 异 度 计算 包括 如 下 步骤 。 

(1) ees 且 对 应 CS 个 有 序 的 状态 ,对 应 于 序列 1， 
os 。 用 对 应 的 秩 ry 代替 zx; ,ris EE {1,* 

(2) rose eas 必须 将 每 个 变量 的 值 映射 到 [0. 0， 
1.0] 上 ,以 便 每 个 变量 都 有 相同 的 权重 。 这 一 点 可 以 通过 用 zy 代替 ri 来 实现 : 


(9-13) 
(3) 相 异 度 的 计算 可 采用 一 种 距离 度量 方法 ,采用 xy 作为 第 ; 个 对 象 的 zyr 值 。 
9.2.6 比例 标 度 型 变量 及 其 相 异 度 计算 


1. 比例 标 度 型 变量 
比例 标 度 型 变量 总 是 取 正 的 度量 值 ,有 一 个 非 线 性 的 标 度 , 近 似 的 遵循 指数 标 度 , 如 
Aem 或 Ae™ 

其 中 ,A 和 B 是 正 的 常数 。 典 型 的 例子 包括 细菌 数目 的 增长 ,或 者 放射 性 元 素 的 衰变 。 

2. 相 异 度 计 算 

对 于 这 种 变量 对 应 的 对 象 的 相 异 度 计算 ,目前 有 3 种 方法 。 

(1) 采用 与 区 间 标 度 变量 同样 的 方法 。 但 这 不 是 一 个 好 的 选择 ,因为 标 度 可 能 被 扭 
曲 了 。 

(2) 将 比例 标 度 型 变量 进行 对 数 变换 ,例如 对 象 ;的 值 xy 被 变换 为 yy ,yi 二 log (zz )。 
变换 得 到 的 yyr 值 可 以 采用 区 间 标 度 变量 描述 的 方法 处 理 。 

(3) 将 zy 看 作 连 续 的 序数 型 数据 ,将 其 秩 作为 区 间 标 度 的 值 来 对 待 。 


9.2.7 混合 类 型 变量 的 相 异 度 计 算 


前 面 所 讨论 的 都 是 由 相同 类 型 变量 描述 的 对 象 之 间 的 相 异 度 计 算 方 法 ,变量 的 类 型 可 
能 是 区 间 标 度 变量 、 对 称 二 元 变量 ,不 对 称 二 元 变量 \ 标 称 变量 、 序 数 型 变量 或 者 比例 标 度 变 
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量 。 但 在 许多 真实 的 数据 库 中 ,对 象 是 被 混合 型 的 变量 描述 的 。 一 般 来 说 ,一 个 数据 库 可 能 
包含 上 面 列 出 的 全 部 6 种 变量 类 型 。 
利用 混合 类 型 变量 来 描述 对 象 之 间 的 相 异 度 ,一 种 方法 是 将 变量 按 类 型 分 组 ,对 每 种 类 
型 的 变量 进行 单独 的 聚 类 分 析 。 如 果 这 些 分 析 得 到 兼容 的 结果 ,这 种 方法 是 可 行 的 。 但 在 
实际 中 ,这 种 方法 的 实用 性 不 大 。 
一 个 更 可 取 的 方法 是 将 所 有 的 变量 一 起 处 理 ,只 进行 一 次 聚 类 分 析 。 一 种 技术 将 不 同 
类 型 的 变量 组 合 在 单个 相 异 度 和 矩阵 中 ,把 所 有 有 意义 的 变量 转换 到 共同 的 域 值 [0. 0， 
U0 
假设 数据 集 包 含 p 个 不 同类 型 的 变量 ,对 象 i 和 对 象 ) 之 间 的 相 异 度 d (i, 站 定义 为 
> oPada 
dd 一 一 一 
2 6 
f=1 
其 中 ,如 果 zi 或 xjy 缺 失 ( 即 对 象 i 或 对 象 j 没有 变量 了 的 度量 值 ), 或 者 zi 二 zy = 二 0, 且 变 
量 f 是 不 对 称 的 二 元 变量 , 则 指示 项 8 只 ==0; 否 则 6y? = 二 1。 变 量 f 对 对 象 i 和 对 象 j 之 间 
相 异 度 的 计算 方式 与 其 具体 类 型 有 关 。 
(1) 当 了 是 二 元 变量 或 标 称 变量 时 : 如 果 zz 一 zir ,d 六 三 0; 否则 dP 二 1。 


(2) 当 /是 区 间 标 度 变量 时 ， dP 一, 这 里 的 刀 取 遍 变 量 /的 所 有 非 


maxhzir 一 minazn 
空缺 对 象 。 
(3) 当 了 是 序数 型 或 者 比例 标 度 型 变量 时 ,计算 秩 放 和 zy 一 说 二 ,并 将 = 作为 区 间 


标 度 变量 值 对 待 。 
这 样 , 当 描述 对 象 的 变量 类 型 是 不 同类 型 时 ,对 象 之 间 的 相 异 度 也 能 够 进行 计算 。 


9.3 基于 划分 的 聚 类 方法 


给 定 一 个 nn 个 对 象 或 元 组 的 数据 源 ,划分 方法 将 数据 构建 为 个 划分 ,每 个 划分 表示 一 
个 聚焦 ,并且 kn。 也 就 是 说 , 它 将 数据 划分 为 个 组 ,同时 满足 如 下 要 求 : 

(1) 每 个 组 至 少 包 含 一 个 对 象 ; 

(2) 每 个 对 象 必须 属于 一 个 组 。 

在 某 些 模糊 划分 技术 中 第 二 个 要 求 可 以 放宽 。 

常用 的 划分 方法 有 -平均 算法 和 中 心 点 算法 两 种 。 


9.3.1 kk- 平 均 算法 


在 该 算法 中 ,每 个 簇 用 该 簇 中 对 象 的 平均 值 来 表示 。k 平 均 算法 不 适合 于 处 理 分 类 属 
性 数据 ;对 数值 数据 有 较 好 的 几何 和 统计 意义 。 
太平 均 算法 的 核心 思想 是 通过 迭代 把 数据 对 象 户 划 分 到 不 同 的 簇 中 ,以 求 目 标 函 数 最 
小 化 ,从 而 使 生成 的 簇 尽 可 能 地 紧 竣 和 独立 。 
具体 划分 过 程 是 ,首先 ,随机 选取 个 对 象 作为 初 识 的 人 个 簇 的 质心 ;然后 ,将 其 余 对 象 
1 
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根据 其 与 各 个 簇 质 心 的 距离 分 配 到 最 近 的 簇 ;最 后 , 青 求 新 形成 的 簇 的 质心 。 如 此 迭代 、 重 
定位 ,尝试 通过 对 象 在 划分 之 间 移 动 来 改进 划分 。 一 个 好 的 划分 的 一 般 规则 是 : 在 同一 个 
簇 中 的 对 象 之 间 尽 可 能 “接近 ”或 相关 ,而 不 同 簇 中 的 对 象 之 间 尽 可 能 “远离 ”或 不 同 。 
平均 算法 的 处 理 流程 : 首先 ,随机 选择 k 个 对 象 ,每 个 对 象 初始 地 代表 了 一 个 簇 的 平 
均值 或 中 心 。 对 剩余 的 对 象 ,根据 其 与 各 个 簇 中 心 的 距离 ,将 它 赋 给 最 近 的 簇 。 然 后 重新 计 
算 每 个 簇 的 平均 值 。 这 个 过 程 不 断 重复 ,直到 准则 函数 收 僵 。 通 常 采用 平方 误差 准则 ,其 定 
义 如 式 : 
E= 22 1p—ml’ (9-15) 


i=1 p€C; 


其 中 ,E 是 数据 库 中 所 有 对 象 平方 误差 的 总 和 ,p 是 空间 中 的 点 ,表示 给 定 的 数据 对 象 ,m; 
是 簇 C; 的 平均 值 (p 和 m; 都 是 多 维 的 )。 这 个 准则 试图 使 生成 的 结果 簇 尽 可 能 地 紧凑 和 
独立 。 

太平 均 算法 尝试 找 出 使 平方 误差 函数 值 最 小 的 & 个 划分 。 当 结果 簇 是 密集 的 ,并 且 簇 
与 簇 之 间 区 分 明显 时 , 它 的 效果 较 好 。 对 处 理 大 数据 集 , 该 算法 是 相对 可 伸缩 和 高 效率 的 ， 
因为 它 的 复杂 度 是 O(nkt) ,其 中 ,n 是 所 有 对 象 的 数目 .k 是 徐 的 数目 ,t 是 迭代 的 次 数 。 通 
常 地 ,k 二 二 n, 且 1 二 二 n。 

和- 平均 算 法 具有 以 下 不 足 : 

(1) 太平 均 算 法 经 常 以 局 部 最 优 结束 。 

(2) 平均 算法 只 有 在 簇 的 平均 值 被 定义 的 情况 下 才能 使 用 ,这 可 能 不 适用 于 某 些 应 
用 ,例如 涉及 有 分 类 属性 的 数据 。 

(3) 要 求 用 户 必须 事先 给 出 (要 生成 的 簇 的 数目 ) 也 可 以 算是 方法 的 一 个 缺点 。 

(4) 平均 算法 不 适合 于 发 现 非 凸 面 形状 的 簇 ,或 者 大 小 差别 很 大 的 簇 。 

(5) 平均 算法 对 于 “噪声 ”和 孤立 点 数据 是 敏感 的 ,少量 的 该 类 数据 能 够 对 平均 值 产 
生 极 大 的 影响 。 


9.3.2 Kk- 中 心 点 算法 


A- 中 心 点 算法 选择 簇 中 位 置 最 接近 聚 中 心 的 对 象 作为 簇 的 代表 点 。 该 算法 的 处 理 过 程 
是 : 首先 ,随机 选择 k 个 对 象 作为 初始 的 k 个 簇 的 代表 点 ,将 其 余 对 象 根据 其 与 代表 点 对 象 
的 距离 分 配 到 最 近 的 簇 ;然后 ,反复 用 非 代 表 点 来 取代 代表 点 ,以 改进 聚 类 质量 。 聚 类 质量 
用 代价 函数 来 估计 ,该 函数 度量 对 象 与 代表 点 对 象 之 间 的 平均 相 异 度 。 

k- 中 心 点 算法 对 属性 类 型 没有 局 限 性 ,通过 簇 内 主要 点 的 位 置 来 确定 选择 中 心 点 ,对 孤 
立 点 的 敏感 性 小 。 

划分 聚 类 方法 对 在 中 小 规模 的 数据 集中 发 现 球状 簇 很 适用 。 为 了 对 大 规模 的 数据 集 进 
行 聚 类 ,以 及 处 理 复杂 形状 的 聚 类 ,基于 划分 的 方法 需要 进一步 的 扩展 。 

k- 平 均 算法 对 于 孤立 点 敏感 ,为 消除 这 种 敏感 性 ,不 采用 簇 中 对 象 平均 值 作为 参考 点 ， 
而 选用 簇 中 位 置 最 中 心 的 对 象 , 即 中 心 点 为 参考 点 ,这 就 是 中心 方 法 。 

聚 类 结果 质量 用 一 个 代价 函数 来 估算 ,该 函数 度量 对 象 与 其 参照 对 象 之 间 的 平均 相 异 
度 。 为 了 判定 一 个 非 代表 对 象 Orandom 是 否 是 当前 一 个 代表 对 象 0; 的 好 的 替代 ,对 每 个 
非 中 心 点 对 象 p, 考 虑 下 面 的 4 种 情况 。 
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(1) 当前 隶属 于 中 心 对 象 Oi 。 

如 果 O; 被 Ornaom 所 代替 作为 中 心 点 , 且 p 离 一 个 0; 最 近 ,i 关 j 那么 尹 被 重新 分 配 
给 Oi;。 
(2) 当前 隶属 于 中 心 对 象 Oi 。 
如 果 0; 被 Ownaom 所 代替 作为 中 心 点 , 且 p 离 Ovaom 最 近 , 那 么 p 被 重新 分 配给 Onaom 。 
(3) 当前 隶属 于 中 心 点 Oi,ij。 
如 果 0; 被 Owwwoon 所 代替 作为 中 心 点 ,而 p 仍然 离 0; 最近, 那么 对 象 的 隶属 不 发 生 
变化 。 

(4) 当前 隶属 于 中 心 点 Di 和 7 

如 果 0; 被 Owwaom 所 代替 作 为 中 心 点 ,而 p 离 Onwvaom 最 近 , 那 么 p 被 重新 分 配给 Onaon 。 

一 个 典型 的 大 中 心 点 算法 描述 如 下 。 

算法 : 基于 中 心 点 或 中 心 对 象 划分 的 典型 二 中 心 点 算法 。 

输入 : 簇 的 数目 和 包含 n 个 对 象 的 数据 库 。 

输出 : & 个 簇 ,使 所 有 对 象 与 其 最 近 中 心 点 的 相 异 度 综合 最 小 。 

方法 : 

(1) 选择 个 对 象 作为 初始 的 中 心 点 ; 

(2) repeat; 

(3) 指派 每 个 剩余 的 对 象 给 离 它 最 近 的 中 心 点 所 代表 的 簇 ; 

(4) 随机 的 选择 一 个 非 中 心 点 对 象 Dao 

(5) 计算 用 Oo 代替 O; 的 总 代价 S; 

(6) if S 达 0 then Oo 替换 O) ,形成 新 的 个 中 心 点 的 集合 ; 

(7) until 不 发 生变 化 。 

当 存在 “噪声 ”孤立 点 数据 时 ,k- 中 心 点 方法 比 k- 平 均 方法 更 健壮 ,这 是 因为 中 心 点 不 像 
平均 值 那 么 容易 被 极端 数据 影响 。 但 是 ,k- 中 心 点 方法 的 执行 代价 比 &- 平 均 方法 高 。 此 外 
这 两 种 方法 都 要 求 用 户 指 定 结果 簇 的 数目 。 


9.4 基于 层次 的 聚 类 方法 


基于 层次 的 聚 类 方法 对 给 定数 据 对 象 集合 进行 层次 的 分 解 。 根 据 层次 分 解 形 成 的 顺 
序 , 层 次 的 方法 可 以 分 为 凝聚 的 方法 和 分 裂 的 方法 。 

1. 凝聚 的 方法 

凝聚 的 方法 ,也 称 为 自 底 向 上 的 方法 ,一 开始 将 每 个 对 象 作为 单独 的 一 个 组 ,然后 相继 
地 合并 相近 的 对 象 或 组 ,直到 所 有 的 组 合并 为 一 个 (层次 的 最 上 层 ), 或 者 达到 一 个 终止 
条 件 。 

2. 分 裂 的 方法 

分 裂 的 方法 ,也 称 为 自 顶 向 下 的 方法 ,一 开始 将 所 有 的 对 象 置 于 一 个 簇 中 ,在 迭代 的 每 
一 步 中 ,一 个 簇 被 分 裂 为 更 小 的 簇 , 直 到 最 终 每 个 对 象 在 单独 的 一 个 簇 中 ,或 者 达到 一 个 终 
止 条 件 。 

图 9-1 中 描述 了 一 个 聚 类 的 层次 聚 类 方法 AGNES(agglomerative nesting) 和 一 个 分 裂 
的 层次 聚 类 方法 DIANA(divisive analysis) 在 一 个 包含 5 个 对 象 的 数据 集合 {a,b,c,d,e} 上 

。 183 。 


的 处 理 过 程 。 


瞩 察 的 。 第 0 步 。 第 ! 步 。 第 步 第 3 步 。 第 4 步 
(AGNES) 


| | | | | 分 裂 的 
第 4 步 第 3 步 第 2 步 “” 第 ! 步 第 0 步  (DIANA) 


图 9-1 在 数据 集 {abcde} 上 的 凝聚 和 分 裂 层 次 聚 类 


最 初 ,AGNES 将 每 个 对 象 作为 一 个 簇 , 然 后 这 些 簇 根据 某 些 准则 被 一 步 步 合 并 。 例 
如 ,如 果 簇 C, 中 的 一 个 对 象 和 簇 C; 中 一 个 对 象 之 间 的 距离 是 所 有 属于 不 同 簇 的 对 象 间 欧 
几 里 得 距离 中 最 小 的 ,C, 和 C* 可 能 被 合并 。 这 是 一 种 单 链接 (single-link) 方 法 ,其 每 个 簇 
可 以 被 徐 中 所 有 对 象 代表 ,两 个 簇 间 的 相似 度 由 这 两 个 不 同 簇 中 距离 最 近 的 数据 点 对 的 相 
似 度 来 确定 。 聚 类 的 合并 过 程 反 复 进行 直到 所 有 的 对 象 最 终 合并 形成 一 个 簇 。 

在 DIANA 方法 的 处 理 过 程 中 ,所 有 的 对 象 开始 都 放 在 一 个 簇 中 。 根 据 一 些 原则 (如 簇 
中 最 临近 对 象 的 最 大 欧 几 里 得 距离 ) ,将 该 篮 分 裂 。 簇 的 分 裂 过 程 反复 进行 ,直到 最 终 每 个 
新 的 簇 只 包含 一 个 对 象 。 

在 凝聚 或 者 分 裂 的 层次 聚 类 方法 中 ,用 户 定义 希望 得 到 的 复数 目 作 为 一 个 结束 条 件 。 

层次 聚 类 方法 尽管 简单 ,但 经 常会 遇 到 合并 或 者 分 裂 点 选择 的 困难 ,这 样 的 决定 是 非常 
关键 的 ,因为 一 旦 一 组 对 象 被 合并 或 者 分 裂 , 下 一 步 的 处 理 将 在 新 生成 的 簇 上 进行 。 已 做 的 
处 理 不 能 被 撤销 , 聚 类 之 间 也 不 能 交换 对 象 。 如 果 在 某 一 步 没 有 很 好 的 选择 合并 或 分 裂 的 
决定 ,可 能 会 导致 低 质量 的 聚 类 结果 。 而 且 , 这 种 聚 类 方法 不 具有 很 好 的 可 伸缩 性 ,因为 合 
并 或 分 裂 的 决定 需要 检查 和 估算 大 量 的 对 象 或 簇 。 


9.5 谱 聚 类 方法 


谱 聚 类 (spectral clustering) 算 法 建立 在 图 论 中 的 谱 图 理论 基础 上 ,其 本 质 是 将 聚 类 问 
题 转化 为 图 的 最 优 划分 问题 ,是 一 种 点 对 聚 类 算法 。 与 传统 的 聚 类 算法 相 比 , 它 具 有 能 在 任 
意 形状 的 样本 空间 上 聚 类 上 且 收敛 于 全 局 最 优 解 的 优点 。 


9.5.1 谱 聚 类 的 步骤 


(1) 根据 数据 构造 一 个 Graph,Graph 的 每 一 个 结 点 对 应 一 个 数据 点 ,将 相似 的 点 连接 
起 来 ,并 且 边 的 权重 用 于 表示 数据 之 间 的 相似 度 。 把 这 个 Graph 用 邻接 矩阵 的 形式 表示 出 
来 , 记 为 W。 
(2) 把 工 的 每 一 列 元 素 加 起 来 得 到 N 个 数 , 把 它们 放 在 对 角 线 上 (其 他 地 方 都 是 零 )， 
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组 成 一 个 NXN 的 和 矩阵 , 记 为 D。 并 令 L=D 一 W。 

(3) 求 出 工 的 前 & 个 特征 值 (“前 & 个 ” 指 将 特征 值 按 照 从 小 到 大 的 顺序 排列 后 的 前 
个 ) 以 及 对 应 的 特征 向 量 。 

(4) 把 这 个 特征 ( 列 ) 向 量 排列 在 一 起 组 成 一 个 N Xk 的 矩阵 ,将 其 中 每 一 行 看 作 维 
空间 中 的 一 个 向 量 , 并 使 用 K-means 算法 进行 聚 类 。 聚 类 的 结果 中 每 一 行 所 属 的 类 别 就 是 
原来 Graph 中 的 结 点 亦 即 最 初 的 N 个 数据 点 分 别 所 属 的 类 别 。 


9.5.2 谱 聚 类 的 优点 


谱 聚 类 方法 和 传统 聚 类 方法 (例如 k-means) 比 起 来 有 不 少 优点 。 

(1) 谱 聚 类 方法 只 需要 数据 之 间 的 相似 度 和 矩阵 信息 ,而 不 必 像 k-means 那样 要 求 数 据 
必须 是 N 维 欧 几 里 得 空间 中 的 向 量 。 

(2) 由 于 抓 住 了 主要 矛盾 ,因此 比 传统 的 聚 类 算法 更 加 健壮 ,对 于 不 规则 的 误差 数据 不 
是 特别 敏感 ,而 且 性 能 也 要 好 一 些 。 许 多 实验 都 证 明了 这 一 点 。 

(3) 计算 复杂 度 比 k-means 算法 要 小 ,特别 是 在 像 文 本 数据 或 者 平凡 的 图 像 数 据 这 样 
维度 非常 高 的 数据 上 运行 的 时 候 。 


9.5.3 谱 聚 类 实例 
设 有 3 个 对 象 分 别 记 为 对 象 1, 对 象 2, 对 象 3,3 个 对 象 的 相似 度 和 矩阵 为 


1 1 0 
Ee 
0 0 1 


SS 
ll 


矩阵 也 每 列 的 元 素 相 加 得 到 对 角 和 矩阵 


2 0 0 
"| 2 "| 
0 0 
和 矩阵 
= 
ow ,| 
0 00 
和 矩阵 


的 特征 值 为 0,0,2， 
特征 向 量 为 
一 0.70711 [0] [一 0.7071 
区 7071 | | 0.7071 
0 1 0 
在 谱 聚 类 中 ,一 般 根据 等 于 0 或 接近 于 0 的 特征 值 的 个 数 来 确定 聚 类 数目 。 根 据 这 个 
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原则 ,这 三 个 对 象 应 该 聚 成 两 类 。 

取 这 两 个 特征 值 对 应 的 特征 向 量 构成 矩阵 

一 0.7071 0 

一 0.7071 "| 

0 1 

将 这 个 矩阵 的 每 行 看 成 一 个 点 , 共 得 到 3 个 点 e= (一 0.7071 0),b==( 一 0.7071 0)， 
t= ys 

上 述 3 个 点 显然 点 a 和 点 5 聚 成 一 类 ,点 < 自己 聚 成 一 类 。 对 应 的 原来 3 个 对 象 中 ,对 
象 1 和 对 象 2 聚 成 一 类 ,对 象 3 自己 聚 成 一 类 。 


9.6 利用 SQL Server 2005 进行 聚 类 分 析 


9.6.1 挖掘 流程 


聚 类 是 一 个 强大 的 工具 ,可 以 按照 相似 性 对 数据 进行 分 组 ;可 以 用 来 理解 数据 ;也 可 以 
用 来 作为 数据 分 析 的 一 个 关键 步骤 。UCI 数据 源 中 的 Iris 数据 集 以 高 尾 花 的 特征 作为 数据 
来 源 , 数 据 集 包含 150 个 样本 ,每 类 50 个 样本 ,每 个 样本 包含 4 个 属性 值 .分别 为 花瓣 长 度 、 
花 辩 宽度 、 花 忒 长 度 、 花 更 宽度 。 在 此 利用 SQL Server 2005 对 Iris 数据 进行 聚 类 分 析 。 

(1) 右 击 项 目 Clustering Analysis 下 的 “挖掘 结构 ?选择 “新 建 挖 掘 结构 ,打开 * 数 据 挖 
据 向 导 ” 对 话 框 , 单 击 “ 下 一 步 ” 按 钮 ,进入 “选择 定义 方法 "页面, 单 击 “ 下 一 步 ” 按 钮 ,进入 “ 选 
择 数 据 挖掘 技术 ”对 话 框 。 

(2) 在 如 图 9-2 所 示 的 对 话 框 中 ,下 拉 列 表 框 中 选取 “Microsoft 聚 类 分 析 ” 选 项 , 单 击 
“下 一 步 "按钮 ,进行 下 一 步 操作 。 


& 数据 挖 据 向 导 


选择 数据 挖掘 技术 
选择 对 于 您 正 执行 的 分 析 类 型 来 说 晤 适用 的 数据 控 据 技术 。 


虽 crosoft 取 类 分 析 算 法 运用 选 代 技术 梅 未 
日， 法 有 用 


找 出 数据 中 


图 9-2 选择 数据 挖掘 技术 


(3) 如 图 9-3 所 示 ,在 “选择 数据 源 视图 ”页 面 的 “可 用 数据 源 视图 ”列表 中 显示 了 前 面 
步骤 创建 的 Iris 数据 源 视图 ,选中 该 视图 选项 , 单 击 “ 下 一 步 " 按 钮 ,进行 下 一 步 操 作 。 
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& 数据 挖 据 向 导 


选择 数据 源 视图 
选择 为 挖 扬 结构 提供 数据 的 数 项 源 视 图 


可 用 数据 源 视图 上 ) : 


Es | 


图 9-3 选择 数据 源 视图 


(4) 如 图 9-4 所 示 ,在 “指定 表 类 型 ”页面 中 可 以 看 到 Iris 数据 源 视图 包含 的 数据 表 , 勾 

选 “Sheetl1$ ”选项 右边 的 “事例 ” 复 选 框 ,可 以 将 其 定义 为 事例 表 ; 单 击 “ 下 一 步 ”按钮 ,进行 
下 一 步 操作 。 
数据 挖 据 向 导 


指定 表 类 型 
指定 分 析 时 要 使 用 的 表 类 型 


图 9-4 指定 表 类 型 


(5) 如 图 9-5 所 示 ,在 “指定 定型 数据 "页面 显示 了 挖掘 模型 结构 ,在 各 个 选项 右边 色 选 
不 同 的 复 选 框 ,然后 单 击 “ 下 一 步 ” 按 钮 ,进行 下 一 步 操 作 。 

(6) 如 图 9-6 所 示 ,在 “指定 列 的 内 容 和 数据 类 型 对话 框 中 显示 了 指定 “ID” 的 内 容 类 
型 为 Key,Class 的 内 容 类 型 为 Discrete, 其 余 列 内 容 类 型 均 为 Continuous;Class 的 数据 类 
型 为 Text, 各 其 余 列 数据 类 型 均 为 Double, 单 击 “ 下 一 步 ” 按 钮 ,进行 下 一 步 操 作 。 

(7) 如 图 9-7 所 示 ,在 “完成 向 导 ” 页 面 中 将 数据 挖掘 结构 命名 为 iris, 单 击 “ 完 成 ”按钮 ， 
完成 挖掘 结构 的 创建 。 

9.6.2 结果 分 析 

单 击 “挖掘 模 型 查看 器 ”下 的 “分 类 关系 图 "“ 分 类 剖面 图 "“ 分 类 特征 >“ 分 类 对 比 ? 选 


项 卡 ,可 以 得 到 如 图 9-8 所 示 的 结果 。 
“187。 


188 
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定 定型 数据 
招 定 分 析 中 所 用 的 
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5 数据 近 据 向 导 


指定 列 的 内 容 和 数据 类 型 
指证 控 据 洁 构 乃 印 内 雁 和 数据 关 型 , 


挖 楷模 型 法 构 G) 


ER 
加 ete Tert 
ED ea 
DD Pe Loneth Tea 
加 Tea ma oui 
DD spa Unesh Centinavs ea 
加 seu ta alias aaa 


图 9-6 指定 列 的 内 容 和 数据 类 型 


数据 控 据 向 导 


成 向导 
2 所 结 爸 提供 各 各 ， 从 而 碗 成 茹 所 所 是 向 叶 。 
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图 97 完成 数据 挖掘 结构 的 创建 


EE 


图 9-8 分 类 剖面 图 


在 图 9-8 中 的 分 类 剖面 视图 中 每 一 列 对 应 模型 中 的 每 一 个 聚 类 ,每 一 行 对 应 于 一 个 属 
性 ,根据 这 样 的 设置 ,可 以 很 容易 地 看 出 这 些 聚 类 之 间 的 不 同 点 ,使 用 这 个 视图 ,可 以 选择 一 
个 您 感 兴趣 的 属性 ,并 且 可 以 可 视 地 水 平 扫描 来 查看 该 属性 在 所 有 据 类 中 的 分 布 ,如 果 观 察 
该 项 相 邻 的 单元 或 者 同一 聚 类 的 其 他 单元 ,将 会 发 现 有 关 该 聚 类 含义 的 更 多 信息 。 

在 图 9-9 中 的 分 类 关系 视图 是 聚 类 查看 器 的 第 一 个 选项 卡 ,也 是 聚 类 查看 器 的 默认 选 
项 卡 ,在 视图 中 ,每 一 个 聚 类 用 一 个 结 点 表示 ,这 些 结 点 是 分 散在 某 个 区 域 中 的 ,可 以 基于 这 
些 聚 类 的 相似 性 对 它们 进行 分 组 。 该 视图 以 图 的 方式 显示 哪 一 些 聚 类 相似 或 者 不 相似 ,并 
且 显示 了 它们 的 相似 性 的 相对 程度 。 
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图 9-9 分 类 关系 图 
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在 图 9-10 分 类 特征 视图 中 ,主要 描述 的 是 所 选 聚 类 事例 的 特征 ,通过 递减 概率 显示 属 
性 来 描述 该 特征 。 通 过 将 某 一 聚 类 与 其 他 聚 类 进行 比较 来 确定 对 于 该 聚 类 中 什么 属性 是 最 
重要 的 ,如 图 9-11 所 示 。 


Clustering Analysis - Microsoft Yisual Studio 
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9-10 分 类 特征 


sis 一 Microsoft Yisual Studio 
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图 9-11 分 类 对 比 


单 击 “ 挖 掘 准确 性 图 表 ? 选 项 卡 下 的 “提升 图 ”和 * 分 类 矩阵 ”, 其 结果 如 图 9-12 所 示 。 
通过 图 9-13 可 以 看 出 ,150 个 数据 中 ,一 共有 50 十 47 十 48 二 145 个 数据 被 正确 地 进行 
聚 类 ,只 有 5 个 数据 没有 被 正确 地 进行 聚 类 ,总 体 上 得 到 了 比较 满意 的 聚 类 结果 。 
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图 9-12 提升 图 
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图 9-13 分 类 和 矩阵 图 


小 结 


本 章 首先 介绍 了 聚 类 分 析 的 概念 以 及 要 求 


。 然 后 分 不 同 变量 类 型 介绍 了 距离 的 度量 方 
法 ,包括 区 间 标 度 变量 .二 元 变量 和 标 称 型 变量 等 。 接 下 来 介绍 了 基于 划分 的 聚 类 方法 和 基 
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于 层次 的 聚 类 方法 ,其 中 基于 划分 的 聚 类 方法 包括 -平均 算法 和 -中 心 点 算法 ,基于 层次 
的 聚 类 方法 包括 凝聚 算法 和 分 裂 算法 ,最 后 介绍 了 基于 SQL Server 2005 的 聚 类 分 析 实 现 
技术 ,使 读者 进一步 体会 了 如 何 利用 SQL Server 2005 具体 实现 聚 类 模式 的 挖掘 。 


习题 9 


1. 简单 地 描述 如 何 计算 由 如 下 类 型 的 变量 描述 的 对 象 间 的 相 异 度 : 

(a) 数值 (区 间 标 度 ) 变 量 

(b) 非 对 称 的 二 元 变量 

(c) 分 类 变量 

(d) 比例 标 度 变量 

(e) 非 数值 向 量 对 象 

2. 假设 数据 挖掘 的 任务 是 将 如 下 8 个 点 聚 类 为 3 个 簇 : 

Al(2,10),A2(2,5),A3(8,4),B1(5,8),B2(7,5),B3(6,4),C1(1,2),C3(4,9) ,距离 函 
数 是 欧 几 里 得 距离 。 假 设 初始 选择 Al,Bl,C1 分 别 为 每 个 聚 类 的 中 心 , 用 大 平均 算法 来 
给 出 : 

(1) 在 第 一 次 循环 执行 后 的 三 个 聚 类 中 心 。 

(2) 最 后 的 三 个 艇 。 

3. & 均 值 和 A 中 心 点 算法 都 可 以 进行 有 效 的 聚 类 。 概 述 & 均 值 和 & 中 心 点 算法 的 优 缺 
点 。 并 概述 这 两 种 方法 与 层次 聚 类 方法 (如 AGNES) 相 比 有 何 优 缺 点 。 
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第 10 音 粗糙 集 方法 


粗糙 集 (rough set,RS) 是 一 种 处 理 不 确定 ,不 完备 数据 和 不 精确 问题 的 新 的 数学 理论 ， 
最 初 由 波兰 数学 家 Z. Pawlak 于 1982 年 提出 。 粗 糙 集 理论 建立 在 分 类 机 制 的 基础 上 ,将 知 
识 理解 为 对 数据 的 划分 ,并 引入 上 近似 和 下 近似 等 概念 来 刻画 知识 的 不 确定 性 和 模糊 性 。 
近年 来 , 它 已 被 广泛 应 用 到 人 工 智 能 ,模式 识别 和 数据 挖掘 等 方面 。 


10.1 粗糙 集 的 基本 概念 


10.1.1 等 价 关 系 与 等 价 类 


1. 第 卡 儿 乘 积 
集合 A,B 的 笛 卡 儿 乘积 为 A XB, 它 是 二 元 组 集合 {(a,6)la€EAAbEB), 即 
AXB={(a,b)la€EAAbEB) (10-1) 
例如 : 设 A={a,b,c},B={1,2}; 则 AXB={(a,1), (a,2), (6,1),(6,2),(c,1), 
(er2)} AXA={(0a GB ae) Ba Bb De) esa (cb (ee)}e 


2. 二 元 关系 
AXB 的 子 集 叫 做 A 到 B 的 一 个 二 元 关系 ,特殊 地 ,AXA 的 子 集 叫做 A 上 的 一 个 二 元 


例如 : 设 A={a,b,c},B={1,2}), 则 {(a,1),(a,2),(65,1),(c,2)}) 为 A 到 B 的 一 个 二 元 
关系 ;{(aya),(a,b),(ayc), (Ga), (0) (ca),(cc)} 为 A 上 的 一 个 二 元 关系 。 

3. 等 价 关 系 

如 果 集 合 A 上 的 二 元 关系 RR 满足 : 

(1) 对 任意 的 a€EA, 有 (a,a) ER; 

(2) 对 任意 的 a.,5EA, 若 (a,5)ER, 则 (6,a) ER; 

(3) 对 任意 的 a,b,cEA, 若 (a,b6)ER,(b,c) ER, 则 (a,c) ER。 
则 称 尺 是 A 上 的 等 价 关 系 。 

若 (x,y)ER, 则 称 x 和 y 有 关系 , 记 为 zxRy; 若 (x,y) 儿 FR, 则 称 x 和 yy 没有 关系 , 记 
为 zRy。 

例如 : 设 A={a,b,cd,e,f), 可 以 验证 R={(asa),(b,6),(csc),(d,d),(e,e),(f, 
,Ca,p), (ba),(ayc), ca) (bc), co) ,dse) ed)} 为 A 上 的 等 价 关系 。 

4. 等 价 类 

设 R 是 集合 A 上 的 等 价 关 系 ,对 每 一 a€ A,a 关于 R 的 等 价 类 是 集合 {z|zRa)} , 记 为 
[oj , 简 记 为 La]。 

例如 : 设 集合 A=={a,5b,c,d,e,f} ,A 上 的 一 个 等 价 关 系 R={(a,a),(5,6),(c,c),(d， 
d),(ese) (ff a6), (Ba) Casc), (csa), (b,c),(c,b0),(d,e),(e,d)}, 则 可 得 到 各 元 素 
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的 等 价 类 如 下 : 
[La]=[5]=[c]={a,b,c} ,Ldj=Lej={d,e} ,Lf]={f} 
5. 划分 
给 定 非 空 集合 A 和 非 空 集合 簇 x 二 {Al ,A; ,A,) ,如 果 
(1) r 是 A 覆盖 , 即 
A= U Ai (10-2) 
(2) 
= 或 = MG = 12m) (10-3) 
那么 称 集合 簇 x 是 A 的 一 个 划分 。 
不 难得 到 以 下 结论 : 设 A 是 非 空 集合 ,R 是 A 上 的 等 价 关 系 , 则 R 的 等 价 类 集合 {[ajk 
la€E A} 是 A 的 划分 。 
10.1.2 信息 表 与 决策 表 
1. 信息 表 
一 个 信息 表 S 定义 为 一 个 四 元 组 : S= 一 U,A,V, 太 > ,其 中 U= {uw ,us，…,u,) 是 对 象 
集合 , 即 论 域 ;A 是 属性 集合 ;V 是 属性 值 的 集合 ;f 是 一 个 信息 函数 , 它 指定 U 中 每 一 个 对 
象 的 属性 值 。 
表 10-1 给 出 了 一 个 包含 6 个 对 象 ,4 个 属性 的 信息 表 。 
表 10-1 一 个 信息 表 实 例 


个 体 编号 头疼 肌肉 疼 体温 流感 
el 是 是 正常 否 
es 是 是 高 是 
es 是 是 很 高 是 
et 否 是 正常 否 
es 否 得 高 否 
es 否 是 很 高 是 


2. 决策 表 
对 信息 表 S, 若 属性 集 可 分 为 条 件 属性 集 C 和 决策 属性 集 D, 即 有 A=CUD, 且 CND 
一世 (一 个 属性 不 能 同时 为 条 件 属性 和 决策 属性 ) , 则 该 信息 表 称 为 一 个 决策 表 工 。 
表 10-2 给 出 了 一 个 包含 5 个 对 象 ,2 个 条 件 属 性 ,1 个 决策 属性 的 决策 表 。 
表 10-2 一 个 决策 表 实 例 
样 例 a ca di 
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10.1.3 下 近似 与 上 近似 


1. 不 可 分 辨 关系 
在 信息 表 S 中 ,对 于 属性 集 IEA, 可 构造 对 应 的 二 元 等 价 关 系 IND(CD={<z,y>>EU 
XU| YaET, 有 a(z) 二 a(y)), 其 中 a(zr) 表 示 对 象 z 在 属性 a。 上 的 属性 值 , 称 IND(D) 为 由 
I 构造 的 不 可 分 辨 关系 。 
对 于 表 10-1 所 示 的 信息 表 , 按 照 头 疼 属 性 进行 分 类 ,可 以 得 到 划分 如 下 : 
UV 头疼 = {{eiyes se3),{erses ,es)} 
这 里 ,ei ,es 和 es 这 三 个 对 象 在 头疼 属性 上 是 不 可 区 分 的 , 即 它 们 一 起 构成 一 个 等 价 类 ,es ， 
eiyes 这 三 个 个 体 构 成 另 一 个 等 价 类 。 
按照 肌肉 疼 、 体 温和 流感 这 三 个 属性 分 别 进 行 分 类 ,可 以 得 到 3 个 划分 如 下 : 
U/ 肌肉 疼 = {{fel ez,esyetyes},fes)) 
UV 体温 = {{e1ses},{esses},{es,ese)} 
UV 流感 = {{e1,erses),{ez ses,e6)} 
按照 头疼 和 肌肉 疼 这 两 个 属性 来 共同 分 类 ,可 以 得 到 划分 如 下 : 
UV/ 头疼 和 肌肉 疼 = { {es,es ,es}, {es ,ee},{es)} 
2. 下 近似 与 上 近似 
设 XEU 为 感 兴趣 的 对 象 集合 ,A 为 属性 集合 , 则 X 的 A 下 近似 (lower approxima- 
tion) 定 义 为 : 
A(X)=U {YEU/A|IYCX} (10-4) 
它 是 一 定 属于 X 的 所 有 对 象 的 集合 。 其 中 U/A 表示 对 象 集合 U 关于 属性 集合 A 的 等 价 
类 集合 。 
X 的 A 上 近似 (upper approximation) 定 义 为 : 
A(X)=U {Y EU/A|IYNXz 8} (10-5) 
它 是 可 能 属于 X 的 所 有 对 象 的 集合 。 
在 表 10-1 所 示 的 决策 表 中 ,对 于 属性 子 集 B= {头疼 ,肌肉 疼 ) ,集合 X= 二 {es,es,es) 是 
一 个 粗糙 集 , 下 面 分 别 计算 集合 X 的 上 近似 集 、 下 近似 集 、 正 域 . 边 界 域 。 
首先 计算 论 域 U 在 属性 集 B 下 的 划分 : 
U/IND(B) = {{e1ves res}, {eseo}, {es}} 
令 Bl 二 {ei ,es ,es),B, 二 {es ,es),B;s 二 {es) ,集合 XX 与 基本 集 有 如 下 关系 : 


B, 性 X 

BFX 

1 

XNB= {ee0) Fg 
XNB=% 


XNMB=B={es}#2 
由 此 可 得 集合 X 的 上 近似 集 、 下 近似 集 如 下 : 
BXY = WB = (ebro 
B(X) = B, = {es} 
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图 10-1 所 示 给 出 下 近似 、 上 近似 的 直观 描述 。 
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| 
图 10-1 下 近似 、 上 近似 的 直观 描述 


10.2 基于 粗糙 集 的 属性 约 简 
10.2.1 属性 约 简 的 有 关 概 念 


1. 正 域 

在 信息 表 S 中 ,对 于 属性 集 P,QSA, 则 Q@ 的 P 正 域 POs,(® = {) PCN)， 

2. 属性 约 简 

在 决策 表 工 中 , 若 存在 属性 集 RCC, 称 R 为 相对 于 决策 属性 D 的 条 件 属性 集 C 的 约 
简 , 当 且 仅 当 满足 两 个 条 件 ; 


(1) POSr(D)=POSc(D); 

(2) 不 存在 rER, 使 得 POSe- (CD)=POScCD) 。 

它 表 示 相 对 约 简 后 的 部 分 条 件 属性 形成 的 相对 于 决策 属性 的 分 类 和 所 有 条 件 属性 形成 
的 相对 于 决策 属性 的 分 类 一 致 , 即 和 所 有 条 件 属性 相对 于 决策 属性 有 相同 的 分 类 能 力 。 

3. 最 小 属性 约 简 

车 决策 表 工 的 一 个 相对 约 简 中 所 含 条 件 属性 个 数 为 所 有 相对 约 简 中 最 少 的 , 则 称 该 相 
对 约 简 为 决策 表 工 的 最 小 相对 属性 约 简 。 

4. 属性 核 

在 决策 表 工 中 ,相对 于 决策 属性 集 的 条 件 属性 的 约 简 不 一 定 是 唯一 的 , 设 REDn(C ) 为 
C 的 所 有 D 约 简 簇 , 则 称 门 REDp(C) 为 C 的 D 核 ,简称 为 决策 表 的 相对 属性 核 , 记 为 
COREp (C)。 

例如 ,对 表 10-3 所 示 的 信息 表 , 利 用 粗糙 集 可 以 进行 如 下 属性 约 简 。 

令 Q= 决 策 属性 {d} ,P= 条 件 属性 全 集 {a1 ,az ,as ,as} , 则 

UVIND(CP) = {{1},{2},{3},{4),{5},{6},{7},{8},{9},{10},{11},{12} ,{13},{14)} 

U/IND(Q) = {{1,2,6,8,14},{3,4,5,7,9,10,11,12,13)} 

POSp (Q) =U 
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表 10-3 一 个 信息 表 实 例 


条 件 属性 
U 决策 属性 (4) 
Outlook(a1) Temperature(az ) | Humidity(as) Windy(as) 
1 Sunny Hot High False N 
2 Sunny Hot High True N 
3 Overcast Hot High False . 
4 Rain Mild High False P 
5 Rain Cool Normal False 从 
6 Rain Cool Normal True N 
7 Overcast Cool Normal True P 
8 Sunny Mild High False N 
9 Sunny Cool Normal False 到 
10 Rain Mild Normal False 卫 
Sunny Mild Normal True Pp 
12 Overcast Mild High True 到 
13 Overcast Hot Normal False 和 
14 Rain Mild High True N 


因此 , 论 域 U 是 P 上 相对 于 Q 一 致 的 ,这 说 明 该 决策 表 是 完全 确定 的 决策 表 , 决 策 表 中 
不 包含 不 一 致 信息 。 


U/INDCP\{a}) = {{1,3},{2},{4,8},{5,9},{6,7},{10},{11},{12,14}),{13}} 

U/INDCP\{a2s}) = {{1,8},{2},{3),{4},{5,10},{6},{7},{9),{11),{12},{13},{14)} 

U/IND(P\{as}) = {{1},{2},{3,13},{4,10},{5},{6},{7},{8},{9},{11},{12),{14)} 

U/IND(P\{a}) ,2),43},{4,14},{5,6}),{7},{8},{9},{10},{11},{12},{13)} 
从 而 


POSemtwb (Q) = {2,5,9,10,11} 
POSemte) (Q) = U = POSp(Q) 
POSemte (CQ) = U = POSp (Q) 
POSwaa,n (Q) = {1,2,3,7,8,9,10,11,12,13} 

由 此 可 知 ,属性 as ,as 是 相对 于 决策 属性 d 可 省 略 的 ,而 属性 c 和 a4s 是 相对 于 决策 属 

性 a 不 可 省 略 的 ,因此 
COREo(P) = {aisas} 

进一步 ， 

U/IND(P\{as ,a3}) = {{1,8,9},{2,11},{3,13},{4,5,10},{6,14},{7,12})} 
POSuw as) (Q) = {3,4,5,6,7,10,12,13,14} 

故 属性 ws 是 条 件 属性 集 P\{as } 相 对 于 决策 属性 d 不 可 省 略 的 ,属性 cs 也 是 条 件 属性 
P\{az} 相 对 于 决策 属性 d 不 可 省 略 的 。 条 件 属性 集 {a ,as ,as } 和 {ai ,az ,as } 为 相对 于 决策 
属性 集 Q= {d)} 的 条 件 属 性 已 的 约 简 , 即 

REDao(CP) = {alyasyat} 


或 
REDo(CP) = {ai,az sa4} 
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COREa(P) = REDa(P) = {a yas,at) 站 {aiazya} = {a1sa4)} 
10.2.2 基于 粗糙 集 的 几 种 属性 约 简 算法 


1. 属性 逐步 删除 约 简 算法 

该 算法 的 基本 思想 是 对 于 决策 表 中 的 所 有 条 件 属性 逐个 进行 删除 ,直至 剩余 的 条 件 属 
性 集合 和 原来 的 所 有 条 件 属性 集合 具有 相同 的 分 类 能 力 。 该 算法 一 定 能 得 到 相对 约 简 , 但 
不 一 定 能 得 到 最 小 属性 约 简 。 

2. 属性 逐步 增加 约 简 算法 

该 算法 的 基本 思想 是 从 属性 核 出 发 ,逐步 分 别 增加 属性 ,直到 和 原来 的 所 有 条 件 属 性 具 
有 相同 的 正 域 。 该 算法 的 实质 是 用 寡 子 集 的 方法 来 求 取 最 小 相对 约 简 , 该 方法 的 复杂 性 是 
指数 性 的 , 即 当 条 件 属性 个 数 增加 时 ,复杂 性 成 指数 增长 。 

3. 基于 互信 息 的 属性 约 简 算 法 

该 算法 的 基本 思想 同属 性 逐步 增加 约 简 算法 相似 ,但 它 将 互信 息 作为 衡量 属性 重要 程 
度 的 依据 ,一 个 一 个 增加 属性 ,直到 和 原来 的 所 有 条 件 属 性 具有 相同 的 正 域 。 这 种 算法 常常 
得 不 到 最 小 约 简 , 甚 至 根本 得 不 到 约 简 。 

4. 基于 可 辨识 矩阵 和 逻辑 运算 的 属性 约 简 算 法 

(1) 可 辨识 矩阵 的 概念 。 在 决策 表 工 = 一 U,CUD,V, 记 中 U=(ay,…) 条件 
属性 集合 C= {ci ,cz ,…，,cn} ,决策 属性 集合 D={d} , 设 E; 为 L 的 可 辨识 矩阵 的 第 i 行 第 j 
列 的 元 素 , 则 可 辨识 矩阵 已 定义 为 


{celceeEC 且 ca) 天 ce() dlui) 天 do) 
E; = (10-6) 
加 d(ui) = d(u,) 
其 中 i,j=1,…,n。 
对 于 表 10-3 所 示 的 决策 表 , 可 以 得 到 如 下 所 示 的 可 辨识 矩阵 。 
00 a aas alazas 0 Qala2da3a4 0 Qsa3 all2ld3 dsld3d4 alld2a4 Q103 0 了] 
0 alias alaza4 QilazQ3Q4 0 Qia2d3 0 azasa4 Qla20304 d203 adidas al0304 0 
0 0 0 Qia203Q4 0 aiaz 0 0 0 0 0 Qia2a4 
0 0 QzQ3Q4 0 aida2 0 0 0 0 0 Q4 
0 Q4 0 aias 0 0 0 0 0 Qa2a3a4 
0 al 0 aia4 dza4 Qilds Qild203 Q10204 0 
0 aiazasas 0 0 0 0 0 Qaida2a3 
0 lzas aias dsld4 alay Qilqaz03 0 
0 0 0 0 0 aiazasa4 
0 0 0 0 Qa3a4 
0 0 0 aias 
0 0 aia4 
0 aiazasa4 
0 


显然 ,可 辨识 矩阵 是 一 个 以 主 对 角 线 对 称 的 矩阵 ,在 考虑 可 辨识 矩阵 的 时 候 , 只 要 考虑 
其 上 三 角 ( 或 下 三 角 ) 部 分 即 可 。 如 果 在 可 辨识 矩阵 中 存在 某 元 素 ,其 取 值 为 单 属性 集合 , 则 
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表明 该 属性 是 区 分 这 个 矩阵 元 素 所 对 应 的 两 个 对 象 所 必需 的 属性 ,也 是 唯一 能 够 区 分 这 两 
个 对 象 的 属性 。 可 辨识 矩阵 中 的 这 些 元 素 所 包含 的 属性 组 成 的 属性 集合 其 实 就 是 该 决策 表 
的 相对 属性 核 。 

(2) 基于 可 辨识 矩阵 和 逻辑 运算 的 属性 约 简 算 法 。 

第 1 步 , 计 算 决 策 表 的 可 辨识 矩阵 。 

第 2 步 ,对 于 可 辨识 矩阵 中 的 所 有 取 值 为 非 空 集合 的 元 素 ,建立 相应 的 析 取 人 逻辑 表 


达 式 。 
第 3 步 ,将 所 有 的 析 取 人 逻辑 表达 式 进行 合 取 运算 ,得 到 一 个 合 取 范式 。 
第 4 步 ,将 合 取 范式 转换 为 析 取 范式 的 形式 。 
第 5 步 , 输 出 属性 约 简 结果 。 析 取 范 式 中 的 每 个 合 取 项 就 对 应 一 个 属性 约 简 的 结果 ,每 
个 合 取 项 中 所 包含 的 属性 组 成 约 简 后 的 条 件 属性 集合 。 
对 于 表 10-3 所 示 的 决策 表 , 我 们 利用 以 上 算法 进行 属性 约 简 的 过 程 如 下 。 
Lis=a 
:3 一 al V as 
工 :一 al Vas 
工 :一 al Vas Va 


Lu 一 al Vas Vas Va 
将 这 些 表达 式 进行 合 取 得 到 合 取 表达 式 L 
L =L,s ALz,s AL AL A ML 
=aA(aVadA(laVad)A(aVa Va)AAM(aVas Vas Va) 
对 工 进行 转换 ,最 终 得 到 析 取 范式 二 
L’=(a Nas Na) V (a Nas Mas) 
这 样 就 得 到 了 两 个 属性 约 简 结果 ,分 别 为 a1 ,az sas 和 al,as ,a4。 
基于 可 辨识 矩阵 和 人 逻辑 运算 的 属性 约 简 算 法 可 以 得 到 所 有 可 能 属性 约 简 结 果 , 但 算法 
的 实质 是 将 属性 组 合 情 况 的 搜索 演变 为 逻辑 公式 的 化 简 , 没 有 解决 NP 问题 。 


10.3 ”基于 粗 烽 集 的 决策 规则 约 简 


10.3.1 决策 规则 的 定义 


信息 表 中 的 对 象 (元 组 )z 按 条 件 属性 与 决策 属性 关系 看 成 一 条 决策 规则 ,写成 
Nf mf) 

其 中 C; 表示 多 个 条 件 属性 ,d 表示 决策 属性 ,f(z) 表 示 对 象 x 在 属性 C; 的 取 值 , 人 表示 人 邮 
辑 “ 与 ?关系 。 

对 表 10-4 信息 表 的 决策 规则 如 下 : 

©@ apocz 一 diel 

©@ apico 一 daeo 

Q@ azpicz 一 doez 
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图 aibscs >die1 
© aibzsco >doez 
注 : a; 即 a==i(i 二 1,2) ;6b) 即 6 二 jj 二 1,2); 其 他 类 同 。 


表 10-4 信息 表 实 例 


o-oomr-|a 


~ ee rn 
cr rm els 
Donbnbenbln 
-Mori" 


1 
2 
3 
4 
5 


10.3.2 决策 规则 的 约 简 


利用 粗糙 集 理 论 可 以 得 到 以 下 决策 规则 约 简 命题 : 
若 属性 集 C 中 存在 若干 个 属性 ,关于 这 些 属 性 的 等 价 类 的 交集 为 相应 决策 属性 D 的 等 
价 类 的 交集 的 子 集 , 即 
N [zj EN [yjs 
则 由 这 些 条 件 属性 和 全 部 决策 属性 构成 的 新 决策 规则 是 原 决策 规则 的 约 简 。 
参照 表 10-4, 求 每 一 条 决策 规则 的 约 简 。 
第 一 条 规则 的 约 简 如 下 : 
[1]uo = {1,4}; [1 = {1,4,5}; [2]. = {1,3,4} 
显然 [1]s 多 [jia,o 5L2]. FE ,Lo0J,={1} EL;[Lll NC.={1,4} ES[l]u.,, 
所 以 得 到 两 条 约 简 后 的 决策 规则 : 
1:bo 一 de :acs 一 de 
第 二 条 规则 的 约 简 如 下 : 
[2]。 站 [0]. = {2}; [2J, = {2,3}; [1] = {2,3}; [0J. = {2,5} 
显然 有 : 
[2]. N [Lo0j. = {2} ES [2js N [0].，[ N [Lo0j. = {2} © [2js NN [0o]. 
所 以 得 到 两 条 约 简 规 则 如 下 : 
2:azco 一 daeo;2 :bico 一 daeo 
同样 可 得 ,3、4、5 条 规则 的 约 简 ,它们 分 别 为 : 
3:azcs 一 doez;3 :bics > does 
4d:acs > die1s4 :bcs 一 die 
5:aico 一 doez;5 :bico —> does 


所 有 约 简 的 决策 规则 如 表 10-5 所 示 。 
表 10-5 约 简 后 的 决策 规则 


SD- 

ke 上 *|a 
Dc-|a 
口上 上 


b c 
0 关 
关 2 
关 0 
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注 : 


“和 4 规则 相同 ,可 以 合并 。 


10.4 粗糙 集 的 优 缺 点 


10.4.1 粗糙 集 的 优点 


(1) 粗糙 集 不 需要 先 验 知识 。 模 糊 集 和 概率 统计 方法 是 处 理 不 确定 信息 的 常用 方 
法 ,但 这 些 方法 需要 一 些 数 据 的 附加 信息 或 先 验 知识 ,如 模糊 隶属 函数 和 概率 分 布 等 ,这 
些 信息 有 时 并 不 容易 得 到 。 粗 烽 集 分 析 方 法 仅 利用 数据 本 身 提供 的 信息 ,无须 任何 先 验 
知识 。 

(2) 粗糙 集 是 一 个 强大 的 数据 分 析 工 具 。 它 能 表达 和 处 理 不 完备 信息 ;能 在 保留 关 
键 信 息 的 前 提 下 对 数据 进行 化 简 并 求 得 知识 的 最 小 表达 ;能 识别 并 评估 数据 之 间 的 依赖 
关系 ,揭示 出 概念 简单 的 模式 ;能 从 经 验 数据 中 获取 易于 证 实 的 规则 知识 ,特别 适 于 智能 
控制 。 


10.4.2 粗糙 集 的 缺点 


粗糙 集 理 论 的 缺点 是 在 实际 应 用 中 由 于 对 象 间 等 价 关 系 ( 不 可 分 辨 关系 ) 条 件 过 分 严 
格 ,以 及 数据 中 存在 噪声 和 数据 不 完整 ,会 造成 知识 的 遗漏 和 偏差 。 如 以 下 例子 : E1,E2 是 
条 件 属 性 下 的 两 个 等 价 类 ,El1,E2 分 别 有 100 个 元 素 ( 对 象 ) ,对 某 一 决策 属性 等 价 类 X,E1 
中 只 有 一 个 元 素 属 于 X ,而 E2 只 有 一 个 元 素 不 属于 X, 基 于 一 般 的 粗糙 集 模式 ,El1, 尼 2 同 
属于 X 的 边界 区 ,对 X 都 不 能 推出 肯定 的 判断 ,然而 E2 中 仅 有 一 个 元 素 不 属于 X ,也许 是 
由 噪音 导致 的 ;这 也 说 明 一 般 粗 糙 集 对 噪声 是 非常 敏感 的 。 而 在 现实 的 应 用 中 ,获取 的 数据 
含有 噪声 是 不 可 避免 的 ,因此 一 般 粗糙 集 模 式 在 一 定 程 度 上 限制 了 其 更 有 效 的 应 用 。 


小 结 


本 章 首先 介绍 了 粗糙 集中 不 可 分 辨 关 系 、 上 近似 和 下 近似 等 基本 概念 。 然 后 在 引入 正 
域 概念 的 基础 上 介绍 了 基于 粗糙 集 的 属性 约 简 算法 ,其 中 主要 包括 基于 互信 息 的 属性 方法 、 
基于 可 辨识 矩阵 和 逻辑 运算 的 属性 约 简 方 法 。 接 下 来 通过 实例 介绍 了 基于 粗糙 集 的 决策 规 
则 约 简 方法 。 最 后 介绍 了 粗糙 集 方法 的 优 缺 点 。 
1 


习题 


中 上 oo 
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. 信息 表 和 决策 表 有 什么 异同 ? 
. 解释 上 近似 和 下 近似 的 概念 。 


解释 属性 约 简 的 概念 。 


. 基于 粗糙 集 的 属性 约 简 算 法 有 哪 几 种 ,并 解释 它们 的 约 简 思 路 。 
. 阐述 如 何 利用 粗糙 集 进行 决策 规则 的 约 简 。 
. 粗糙 集 理论 具有 哪些 优点 和 缺点 ? 


“202。 


第 11 章 复杂 结构 数据 挖掘 


知识 不 仅 以 传统 数据 库 的 结构 化 数据 形式 出 现 , 它 还 以 各 种 各 样 的 半 结 构 化 或 非 结 构 
化 数据 形式 存储 表现, 诸如 文本 数据 空间 数据 多 媒体 数据 `Web 页 面 等 。 复 杂 结 构 的 数 
据 源 中 存在 着 大 量 的 知识 ,从 这 些 数据 源 中 进行 数据 挖掘 ,提取 知识 就 成 为 数据 挖掘 的 一 个 
发 展 方向 。 


11.1 文本 数据 挖掘 


在 现实 世界 ,人 们 面 对 大 量 的 文本 数据 ,由 各 种 数据 源 ( 如 新 闻 文章 \ 研 究 论 文书 籍 、 数 
字 图 书馆 .电子 邮件 和 Web 页 面 ) 的 大 量 文本 组 成 。 随 着 信息 技术 的 发 展 ,文本 数据 的 数量 
急剧 增长 ,所 以 对 文本 进行 数据 挖掘 成 为 了 数据 挖掘 的 一 个 发 展 方向 。 


11.1.1 文本 数据 的 特点 


文本 数据 不 同 于 传统 数据 库 中 的 数据 , 它 具 有 自己 的 特点 。 

(1) 半 结 构 化 。 文 本 数据 既 不 是 完全 无 结构 的 也 不 是 完全 结构 化 的 。 例 如 文本 可 能 包 
含 结构 字段 ,如 标题 作者、 出 版 日 期 \ 长 度 ,分 类 等 ,也 可 能 包含 大 量 的 非 结构 化 的 数据 ,如 
摘要 和 内 容 。 

(2) 高 维 。 文 本 向 量 的 维 数 一 般 都 可 以 高 达 上 万 维 , 一 般 的 数据 挖掘 、 数 据 检 索 的 方法 
由 于 计算 量 过 大 或 代价 高 昂 而 不 具有 可 行 性 。 

(3) 高 数据 量 。 一 般 的 文本 库 中 都 会 存在 最 少数 千 个 文本 样本 ,对 这 些 文本 进行 预 处 
理 、 编 码 ,挖掘 等 处 理 的 工作 量 是 非常 庞大 的 ,因而 手工 方法 一 般 是 不 可 行 的 。 

(4) 语义 性 。 文 本 数据 中 存在 着 一 词 多 义 .多 词 一 义 , 在 时 间 和 空间 上 的 上 下 文 相关 等 
情况 。 


11.1.2 文本 挖掘 的 定义 


文本 挖掘 以 文本 型 信息 源 作为 分 析 的 对 象 ,利用 定量 计算 和 定性 分 析 的 方法 ,从 中 寻找 
到 信息 结构 ,模型 .模式 等 各 种 隐 含 的 新 颖 知识 。 

文本 挖掘 与 数据 挖掘 相 比 ,它们 的 相似 点 在 于 两 者 都 处 理 大 量 的 数据 ,都 可 归属 到 知识 
发 现 领域 中 ;其 差别 在 于 许多 经 典 的 数据 挖掘 算法 ,如 数值 预测 .决策 树 等 都 不 太 适 用 于 文 
本 挖掘 ,因为 数据 挖掘 依赖 于 结构 化 的 数据 ;另外 短语 或 概念 关联 分 析 等 工作 则 是 文本 挖掘 
所 独 有 的 。 

文本 挖掘 和 数据 挖掘 之 间 的 区 别 如 表 11-1 所 示 。 
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表 11-1 文本 挖掘 与 数据 挖掘 的 区 别 


项 目 数据 挖掘 文本 挖掘 
研究 对 象 | 用 数字 表示 的 、 结 构 化 的 数据 半 结 构 化 的 数据 
对 象 结构 | 关系 数据 库 自由 开放 的 文本 
目标 获取 知识 、 预 测 以 后 的 状态 提取 概念 和 知识 
方法 归纳 学 习 、 决 策 树 ,神经 网 络 、 粗 糙 集 等 提取 短语 、 形 成 概念 ,关联 分 析 、 聚 类 分 类 
成 熟 度 1994 年 始 得 到 广泛 应 用 2000 年 始 得 到 广泛 应 用 


11.1.3 文本 挖掘 的 主要 任务 


(1) 文本 预 处 理 。 文 本 中 包含 的 内 容 非 常 复杂 ,为 了 降低 文本 挖掘 的 计算 量 和 复杂 度 、 
排除 噪声 ,一 般 必须 对 文本 进行 预 处 理 。 常 见 的 预 处 理 步骤 为 : 分 词 和 预 过 滤 ,以 避免 非常 
短 或 者 非常 长 的 关键 词 以 及 不 是 单词 的 关键 词 ;高 、 低 通过 滤器 ,过 滤 那 些 很 不 常用 和 诸如 
辅助 动词 那些 出 现 频率 很 高 的 常用 词 ; 词 频 统计 ,以 词 频 为 自 变量 的 函数 是 目前 流行 的 各 类 
以 统计 方法 为 数学 基础 的 文本 处 理 方法 的 基本 处 理 对 象 。 

(2) 文本 结构 分 析 和 自动 摘要 。 进 行文 本 结构 分 析 是 为 了 更 好 地 理解 文本 的 主题 思 
想 , 了 解 文 本 所 表达 的 内 容 及 采用 的 方式 ,包括 识别 文本 的 各 个 层次 及 分 析 各 个 层次 间 的 联 
系 。 以 结构 分 析 为 基础 , 找 出 文本 主题 句 ,整理 组 合 后 构成 文本 文摘 。 

(3) 文本 分 类 。 文 本 分 类 是 指 按照 预先 定义 的 主题 类 别 ,为 文本 集合 中 的 每 个 文本 确 
定 一 个 类 别 。 这 样 用 户 不 但 能 够 方便 地 浏览 文本 ,而 且 可 以 通过 限制 搜索 范围 来 使 文本 的 
查找 更 容易 ,快捷 。 

(4) 文本 聚 类 。 聚 类 与 分 类 的 不 同 之 处 在 于 , 聚 类 没有 预先 定义 好 的 主题 类 别 , 它 的 目 
标 是 将 文本 集合 分 成 若干 个 簇 ,要 求 同 一 簇 内 文本 内 容 的 相似 度 尽 可 能 的 大 ,而 不 同 簇 之 间 
的 相似 度 尽 可 能 的 小 。 


11.1.4 文本 挖掘 的 一 般 过 程 


文本 挖掘 过 程 一 般 包 括 文本 分 词 ,文本 特征 表示 、 词 频 抢 阵 降 维 , 文 本 相似 度 计 算 ,文本 
知识 获取 等 。 

在 经 过 对 文本 数据 进行 一 系列 的 预 处 理 以 后 ,传统 的 数据 挖掘 方法 同样 可 以 应 用 于 文 
本 数据 挖掘 ,下 面 简要 介绍 文本 的 预 处 理 方法 。 

1. 文本 分 词 

分 词 是 中 文 信息 处 理 从 字符 处 理 水 平 向 语义 处 理 水 平 迈 进 的 关键 。 汉 语文 本 不 像 西 文 
那样 , 词 与 词 之 间 有 空格 间隔 ,同时 汉语 的 构 词 方式 ,不同 分 词 方式 表达 不 同意 义 等 特点 ,使 
得 中 文 处 理 必须 有 分 词 这 道 工 序 。 

汉语 分 词 的 难点 主要 表现 在 两 个 方面 , 即 歧 义 切 分 和 未 登录 词 的 切 分 。 

(1) 歧义 切 分 。 汉 语 字 与 字 之 间 组 词 灵活 ,给 分 词 带 来 了 很 大 的 困难 。 从 上 下 文 关系 
的 角度 看 ,其 中 只 有 一 种 切 分 结果 是 正确 的 。 

(2) 未 登录 词 切 分 。 未 登录 词 主要 是 指 分 词 系统 的 词典 中 未 收录 的 词 。 不 断 出 现 的 新 
词 属于 另外 一 类 未 登录 词 ,反映 在 自然 语言 上 就 是 大 量 的 新 词 不 断 涌现 。 

分 词 技术 ,大 致 可 以 分 为 5 类: 词典 分 词法 、 切 分 标记 分 词法 、 基 于 统计 的 分 词 方 法 、 基 
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于 语言 规则 的 分 词 方法 和 智能 分 词 方法 。 

(1) 词典 分 词法 。 词 典 分 词法 主要 用 于 主题 相对 集中 的 信息 库 ,如 某 专业 学 科 信 息 库 。 

就 扫描 的 顺序 而 言 ,词语 匹配 方法 有 正 向 扫描 匹配 .逆向 扫描 匹配 和 正 逆向 结合 扫描 匹 
配 ; 在 进行 词语 匹配 时 ,有 最 长 匹配 .最 短 匹 配 .长短 匹配 结合 、 词 首 匹 配 等 多 种 策略 。 例 如 
最 短 匹配 是 指 以 短 字 符 串 优先 匹配 词典 。 

(2) 切 分 标记 分 词法 。 利 用 切 分 字典 指导 分 词 。 切 分 字典 是 由 能 断 开 词 和 词组 或 表示 
汉字 之 间 关 系 的 汉字 集合 组 成 字典 ,包括 的 内 容 有 词 首 字 、 词 尾 字 等 ,也 有 的 系统 以 非 用 字 、 
条 件 用 字 等 组 成 切 分 字典 。 

(3) 基于 统计 的 分 词 方法 。 用 字 与 字 相 邻 共 现 的 频率 来 反映 字符 串 确实 是 一 个 词 的 可 
信 程 度 。 在 上 下 文中 , 相 邻 的 字 同 时 出 现 的 次 数 越 多 ,就 越 有 可 能 构成 一 个 词 。 

(4) 基于 语言 规则 的 分 词 方法 。 在 分 词 的 过 程 中 加 入 词法 .语法 以 及 语义 规则 等 来 提 
高 分 词 的 质量 。 一 般 都 是 人 工 添加 规则 ,或 者 在 人 工 添加 的 基础 上 再 从 有 限 的 训练 语料库 
中 得 到 分 词 规则 。 

(5) 智能 分 词法 。 利 用 人 工 智 能 的 方法 进行 分 词 。 常 用 的 有 中 心 词 驱动 分 析 法 、 分 词 
语句 法 .语义 分 析 同 步 处 理 法 和 分 层 理解 分 析 法 等 。 

2. 文本 特征 表示 

文本 特征 指 的 是 关于 文本 的 元 数据 ,分 为 两 种 : 描述 性 特征 ,例如 文本 的 名 称 \ 日 期 .大 
小 、 类 型 等 ;语义 性 特征 ,例如 文本 的 作者 、 机 构 ,标题 、 内 容 等 。 描 述 性 特征 易于 获得 ,而 语 
义 性 特征 则 较 难得 到 。 

向 量 空间 模型 是 近年 来 应 用 较 多 且 效 果 较 好 的 表示 文本 特征 的 方法 。 在 该 模型 中 , 文 
本 空间 被 看 做 是 由 一 组 正 交 词 条 向 量 所 张 成 的 空间 ,每 一 个 词 条 称 为 一 个 特征 项 ,每 一 个 文 
本 d 则 表示 为 空间 内 的 一 个 向 量 ,一 般 表 示 为 : 

VCd) = (w(t) wts) wta) ,wt )) (11-1) 
其 中 坟 为 张 成 文本 空间 的 词 条 ,n 为 文本 空间 的 维 数 , w(t;) 是 函数 ,其 基本 功能 是 计算 词 条 
ti 在 文本 向 量 中 的 权重 。w (1;) 一 般 被 定义 为 1; 在 文本 d 中 出 现 频率 1f;(d) 的 函数 , 即 
w(ti) 二 Y(tfi(d)), 常 用 的 yy 有 以 下 几 种 函数 。 


(1) 布尔 函数 : 
Ls fi(d) >0 
y= (11-2) 
ls tfi(d)=0 
(2) 平方 根 函 数 : 
y= Vifi(d) (11-3) 
(3) 对 数 函 数 : 
y= log(tfi(d)+1) (11-4) 
(4) TFIDF 函数 ， 
y= fi(d) Xlog 图 (11-5) 
其 中 N 为 所 有 文本 的 数目 ,n; 为 含有 词 条 i; 的 文本 数目 。 
3. 词 频 和 矩阵 降 维 


使 用 向 量 空间 模型 来 表示 文本 时 ,表示 文本 的 特征 向 量 会 达到 数 十 万 维 的 大 小 。 有 人 
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曾 对 Yahoo 上 的 49 600 个 文本 提取 作为 特征 的 词 串 ,最 后 得 到 320 000 个 特征 词 串 。 如 此 
高 维 的 特征 对 将 进行 的 机 器 学 习 未 必 全 是 重要 的 有 益 的 ,而 且 高 维 的 特征 可 能 会 大 大 增加 
数据 挖掘 时 间 而 仅 产生 与 小 得 多 的 特征 子 集 相 关 的 学 习 结 果 , 因 此 对 文本 进行 数据 挖掘 时 
特征 子 集 的 选取 便 显 得 异常 重要 。 下 面 介绍 两 种 常用 的 词 频 矩 阵 降 维 方法 。 

(1) 基于 评估 函数 的 方法 。 基 于 评估 函数 的 特征 集 缩减 算法 一 般 使 用 特征 独立 性 假设 
以 简化 特征 选择 。 算 法 的 一 般 步骤 是 ,用 某 种 评估 函数 独立 地 对 每 个 特征 计算 ,然后 把 特征 
按 计算 结果 进行 排序 ,选择 事先 确定 数目 或 者 超过 阔 值 的 若干 计算 值 较 高 的 特征 。 

选择 不 同 的 评估 函数 会 形成 各 种 名 目的 特征 集 缩减 算法 。 常 见 的 评估 函数 有 信息 增 
益 、 期 望 交叉 炉 , 互 信息 ,文本 频数 、 文 本 证 据 权 优势 率 、 词 频 等 。 

设 下 是 对 应 于 单词 W 的 特征 ,PC(W) 是 单词 W 出 现 的 概率 ,P(ec;) 为 第 i 类 出 现 的 概 
率 ,P(Ci|W) 为 单词 W 出 现时 属于 第 i 类 的 概率 ,TF(W) 为 单词 W 在 文本 集中 出 现 的 次 
数 ,pos 表示 正 例 集 的 情况 ,neg 表示 负 例 集 的 情况 。 以 上 评估 函数 分 别 定义 如 下 : 

文本 频数 : TF(W) 


信息 增益 : 
PCC | W) 一 一 PCC | W) _ 
PW) 2PCC | wlog SB )+ POW) PC 1 Wiog( PO) ) (11-6) 
期 望 交叉 焙 ， 
PC; | W) 
Pow DP, wlog( Gey 】 (11-7) 
互信 息 : 
P(WC;) 
Drecoros( es 】 (11-8) 
文本 证 据 权 : 
P(C; | W)(1— P(C)) _ 
POW) 2PCC) ee (11-9) 
优势 率 : 
P(W | pos)(1— P(W | aeg) 
log (Pew [neg) (1 — ECW | pos)) Ge 
特征 的 x? 统计 : 单词 W 在 类 别 C; 中 的 x? 值 计算 如 下 : 
n(n XmO—ns Xn)’ 
Xn (mm 二 nz) X (natm) Xmtns) Xx (nztm) HAD 


其 中 no ns 和 nn 分 别 表 示 单 词 W 和 类 别 C; 的 4 种 情况 的 频数 ,这 4 种 情况 分 别 为 (W， 
CD) ;WCi);( 到 ,Ci) 和 (到,Ci); 且 n= 十 2 十 ns 十 m4 为 总 数 。 
(2) 潜在 语义 索引 (latent semantic index,LSI)。 对 文本 词 条 和 矩阵 Wnxm 利 用 奇异 值 分 
解 计算 W 的 记 秩 近似 矩阵 W,(r<min CN,M))。LSI 分 解 图 示 如 图 11-1 所 示 。 
经 奇异 值 分 解 ,矩阵 多 可 表示 为 三 个 矩阵 的 乘积 : W 
三 UAV ,U 和 VW 分 别 为 与 W 矩阵 对 应 的 左 、 右 奇异 向 量 矩 | 
阵 ,4 为 由 矩阵 W 的 奇异 值 按 递减 顺序 排列 构成 的 对 角 甜 wo 
阵 。 取 U 和 VV 最 前 面 的 列 构建 ~ 秩 近 似 矩 阵 W,: Ww = Uv, A; 
W, = UA,VI Cl-12) 图 1-1 LSI 分 解 图 示 
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用 W, 近似 表示 文本 词 条 和 矩阵 W,U, 和 VW, 行 向 量 分 别 作为 文本 向 量 和 词 向 量 。 在 此 基 
础 上 进行 文本 聚 类 或 其 他 处 理 。 

4. 文本 相似 度 计算 

一 般 认 为 相似 的 文本 具有 相似 的 关键 词 和 相对 词 频 , 一 组 文本 的 相似 度 可 以 基于 关键 
词 向 量 或 相对 词 频 向 量 来 计算 ,利用 文本 的 相似 度 可 以 对 文本 进行 分 类 和 聚 类 。 

在 文本 与 词 的 相关 和 矩 阵 (zj /i 二 1,2,…,m;j 二 1,2,…,n) 中 ,二 表示 第 i 篇 文本 与 第 j 个 
词 的 相关 度 ,t; 的 取 值 范围 为 [0,1]。 

第 i 篇 文本 与 第 j 篇 文本 的 相关 系数 用 Sj; 表示。 计算 相关 系数 的 方法 有 多 种 ,其 中 , 余 
弦 系 数 法 最 为 常用 。 


Si = 一 全- 一 一 (1-13) 


设 di 和 ds 为 两 个 文本 特征 向 量 , 它 们 的 余弦 相似 度 定义 也 可 以 表示 成 如 下 形式 ， 
cos (disds) = (di ds)/| dil|ld;| (11-14) 
其 中 di， d; 为 标准 向 量 乘 积 , 分 母 中 的 1di | 是 向 量 di 的 长 度 ,1d; | 是 向 量 di 的 长 度 。 


11.1.5 文本 挖掘 的 应 用 


电子 邮件 管理 是 文本 挖掘 应 用 的 成 功 案例 。 利 用 文本 挖掘 构造 的 电子 邮件 路 由 ,可 以 
对 电子 邮件 进行 文本 挖掘 以 后 ,确定 由 哪 一 个 部 门 、 哪 一 个 人 来 处 理 这 些 电 子 邮 件 , 并 且 可 
以 根据 电子 邮件 的 内 容 进 行 相关 统计 。 

此 外 ,文档 管理 是 许多 组 织 中 十 分 烦琐 而 又 重要 的 工作 ,通过 文本 挖掘 可 以 帮助 组 织 对 
成 千 上 万 的 文档 实现 有 效 的 管理 ,很 快 地 了 解 到 所 需要 查找 文档 的 所 在 位 置 以 及 其 包含 的 
主要 内 容 。 

企业 可 以 利用 文本 挖掘 建立 一 个 客户 自动 问答 系统 。 对 客户 所 邮寄 的 信件 .电子 邮件 
进行 文本 挖掘 后 ,根据 其 反映 的 主要 问题 ,在 确定 了 客户 的 需求 置信 和 度 后 ,可 以 自动 给 客户 
发 送 合 适 的 回信 。 

企业 还 可 以 利用 联机 文本 挖掘 系统 对 因特网 上 所 出 现 的 特定 词 .概念 .主题 进行 挖掘 统 
计 , 对 市 场 进行 客观 的 统计 分 析 。 

企业 其 至 可 以 利用 一 些 具 有 文本 挖掘 功能 的 自动 智能 网 络 息 虫 来 收集 与 企业 有 关 的 市 
场 、 竞 争 对 手 和 市 场 环境 的 信息 ,给 出 总 结 性 的 分 析 报 告 。 


11.2 Web 数据 挖掘 


随 着 Internet 技术 的 发 展 ,尤其 是 Web 的 全 球 普及 ,使 得 Web 成 为 信息 发 布 、, 交互 和 
获取 的 主要 工具 。Web 上 的 数据 是 海量 的 ,同时 Web 是 半 结 构 的 ,动态 的 ,Web 页 面 极其 
复杂 ,这 样 就 使 人 们 从 成 千 上 万 的 Web 站 点 中 找到 所 需 数据 极为 困难 。 而 Web 挖掘 就 可 
以 利用 数据 挖掘 技术 从 Web 文档 和 Web 活动 中 抽取 人 们 感 兴趣 的 、 潜 在 的 有 用 模式 和 隐 
藏 的 信息 。 
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11.2.1 Web 数据 的 特点 


Web 是 一 个 非常 成 功 的 基于 超 文本 的 分 布 式 信息 系统 , 它 包 括 了 丰富 的 动态 的 超 链接 
信息 ,以 及 Web 页 面 的 访问 和 使 用 信息 ,为 数据 挖掘 提供 了 丰富 的 资源 。 要 了 解 Web 挖 
掘 ,首先 要 了 解 其 特点 。 

(1) 庞大 性 。Web 为 全 球 范围 发 布 和 传播 信息 提供 了 机 会 , 它 允 许 任何 人 在 任何 地 点 
任何 时 间 传 播 和 获取 信息 。 由 于 Web 的 开放 性 ,使 得 其 数据 与 日 俱 增 ,爆炸 性 增长 。 

(2) 动态 性 。Web 不 仅 以 极 快 的 速度 增长 ,而 且 其 信息 还 在 不 断 地 发 生 更 新 。 新 闻 、 公 
司 动态 .股票 市 场 .Web 服务 中 心 等 都 在 不 断 地 更 新 着 各 自 的 页 面 。 链 接 信息 和 访问 记录 
也 在 频繁 更 新 之 中 。 

(3) 异 构 性 。 从 数据 库 研 究 的 角度 出 发 ,Web 网 站 上 的 信息 可 以 看 作 是 一 个 庞大 、 复 杂 
的 数据 库 。Web 上 的 每 一 个 站 点 就 是 一 个 数据 源 ,每 个 数据 源 都 是 异 构 的 ,这 就 是 构成 了 
一 个 巨大 的 异 构 数据 库 环境 。 

(4) 半 结 构 化 数据 结构 。Web 上 的 数据 与 传统 数据 库 中 的 数据 不 同 , 传 统 数据 库 都 有 
一 定 的 数据 模型 ,Web 上 的 数据 非常 复杂 ,没有 特定 的 模式 描述 ,每 一 个 站 点 的 数据 都 是 各 
自 独 立 设计 ,并 且 数据 本 身 具 有 自述 性 和 动态 可 变性 。 因 而 , Web 上 的 数据 应 具有 一 定 的 
结构 性 ,但 因 其 自述 层次 的 存在 ,从 而 是 一 种 非 完全 结构 化 的 数据 , 即 半 结 构 化 数据 。 半 结 
构 化 是 Web 数据 的 最 大 特点 。 


11.2.2 Web 挖掘 的 定义 


Web 挖掘 可 以 简单 地 定义 为 ,针对 包含 Web 页 面 内 容 、 页 面 之 间 的 结构 、 用 户 访问 信 
息 、 电 子 商 务 信息 等 在 内 的 各 种 Web 数据 ,应 用 数据 挖掘 方法 以 帮助 人 们 从 WWW 中 提取 
知识 ,为 访问 者 、 站 点 经 营 者 以 及 包括 电子 商务 在 内 的 基于 因特网 的 商务 活动 提供 决策 
支持 。 


11.2.3 Web 挖掘 分 类 


Web 数据 有 3 种 类 型 : HTML 标记 的 Web 文档 数据 , Web 文档 内 连接 的 结构 数据 和 
用 户 访问 数据 。 按 照 对 应 的 数据 类 型 ,Web 挖掘 可 分 为 内 容 挖掘 .结构 挖掘 .用户 访问 模式 
挖掘 。 

1. Web 内 容 挖掘 

Web 内 容 挖掘 主要 是 针对 各 种 非 结构 化 数据 (如 文本 数据 、 音 频数 据 、 视 频数 据 和 图 形 
图 像 数 据 等 各 种 数据 相 融 合 的 多 媒体 数据 ) 的 挖掘 。 可 以 将 其 分 为 基于 文本 信息 的 挖掘 和 
基于 多 媒体 信息 的 挖掘 两 种 数据 挖掘 方式 。 

(1) 基于 文本 信息 的 挖掘 。Web 上 的 内 容 挖掘 多 为 基于 文本 信息 的 挖掘 , 它 和 通常 的 
平面 文本 挖掘 比较 类 似 。 平 面 文本 挖掘 的 方法 也 可 以 用 到 Web 文本 的 挖掘 。Web 文档 多 
为 HTML XML 等 语言 ,因此 可 以 利用 Web 文档 中 的 标记 额外 信息 来 提高 Web 文本 挖掘 
的 功能 。 

在 对 Web 文档 进行 分 类 分 析 中 ,可 以 基于 一 组 预先 分 好 类 的 文档 ,从 预定 义 好 的 分 类 
目录 中 为 每 一 文档 赋予 一 个 类 标签 ,用 于 导出 Web 文档 的 分 类 模式 。 接 下 来 可 以 利用 导出 
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的 分 类 模式 对 Web 文档 进行 分 类 。 而 且 , 由 于 超 链 接 包 含 了 有 关 页 面 的 高 质量 信息 ,因此 ， 
可 以 利用 这 些 信 息 对 Web 文档 进行 分 类 。 这 种 分 类 比 基 于 关键 字 的 分 类 方法 更 准确 .更 
完善 。 

(2) 基于 多 媒体 信息 的 挖掘 。 随 着 网 络 带宽 的 不 断 增加 ,多 媒体 信息 在 网 上 迅速 增加 ， 
这 就 对 多 媒体 信息 的 挖掘 提出 了 要 求 。 多 媒体 信息 的 挖掘 主要 是 指 基于 音频 的 挖掘 、 基 于 
静态 图 像 的 挖掘 和 基于 动态 图 像 的 挖掘 。 

2. Web 结构 挖掘 

Web 结构 挖掘 是 从 WWW 的 组 织 结构 和 链接 关系 中 推导 知识 。Web 结构 挖掘 通过 分 
析 一 个 网 页 链接 和 被 链接 的 数量 及 对 象 建立 Web 自身 的 链接 结构 模式 。 这 种 模式 可 以 用 
于 网 页 归 类 ,并 且 可 以 由 此 获得 有 关 不 同 页 面相 似 度 和 关联 度 的 信息 , Web 结构 挖掘 有 助 
于 用 户 找 到 相关 主题 的 权威 站 点 ,并 且 可 以 指向 众多 权威 站 点 的 相关 主题 站 点 。 

3. 用 户 访 问 模式 挖掘 

Web 内 容 挖掘 和 Web 结构 挖掘 的 挖掘 对 象 是 网 上 的 原始 数据 ,而 用 户 访问 模式 挖掘 
则 不 同 于 前 两 者 , 它 面 对 的 是 在 用 户 和 网 络 交互 的 过 程 中 抽取 出 来 的 第 二 手数 据 。Web 用 
户 访问 模式 挖掘 时 对 用 户 访问 Web 时 在 服务 器 方 留 下 的 访问 记录 进行 挖掘 , 即 对 用 户 访问 
Web 站 点 的 存 取 方式 进行 挖掘 。 挖 掘 的 对 象 是 在 服务 器 上 的 包括 Server Log Data 等 在 内 
的 日 志文 件 记 录 。 


11.2.4 Web 挖掘 过 程 


(1) 查找 资源 。 根 据 挖掘 目的 ,从 Web 资源 中 提取 相关 数据 ,构成 目标 数据 集 。 其 任 
务 是 从 Web 数据 (包括 Web 文档、 电子 邮件 、 电 子 文档 .新 闻 组 ,网 站 日 志 、 网 络 数 据 库 中 的 
数据 等 ) 中 得 到 数据 。 

(2) 数据 预 处 理 。 在 进行 Web 挖掘 之 前 对 “杂质 "数据 进行 过 滤 。 例 如 消除 数据 的 不 
一 致 性 ;将 多 个 数据 源 中 的 数据 统一 为 一 个 数据 存储 等 。 预 处 理 数据 的 效果 直接 影响 到 挖 
掘 算法 产生 的 规则 和 模式 。 数 据 预 处 理 主要 包括 站 点 识别 .数据 选择 .数据 净化 ,用户 识别 
和 会 话 识别 等 。 

(3) 模式 发 现 。 利 用 挖掘 算法 挖掘 出 有 效 的 、 新 颖 的 、 潜 在 的 ` 有 用 的 及 最 终 可 以 理解 
的 信息 和 知识 。 常 用 的 模式 发 现 技术 包括 路 径 分 析 、 关 联 规则 挖掘 .时 序 模式 发 现 . 聚 类 和 

(4) 模式 分 析 。 利 用 合适 的 工具 和 技术 对 挖掘 出 来 的 模式 进行 分 析 、 解 释 、 可 视 化 ,把 
发 现 的 规则 模式 转换 为 知识 。 


11.2.5 Web 数据 挖掘 的 应 用 


Web 数据 挖掘 的 应 用 涉及 电子 商务 .网 站 设计 和 搜索 引擎 服务 等 多 个 方面 。 
在 电子 商务 的 应 用 方面 主要 有 客户 分 类 和 客户 聚 类 、 寻 找 潜在 的 客户 .客户 的 驻 留 。 
网 站 设计 的 应 用 是 通过 对 网 站 内 容 的 挖掘 ,有 效 地 组 织 网 站 信息 ,并 结合 对 用 户 访问 日 
志 记 录 信 息 的 挖掘 ,把 握 用 户 的 兴趣 ,从 而 有 助 于 开展 网 站 信息 服务 以 及 个 人 信息 的 定制 
服务 。 
在 搜索 引擎 服务 方面 主要 通过 对 网 页 内 容 的 挖掘 ,实现 对 网 页 的 分 类 、 聚 类 ,实现 网 络 
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信息 的 分 类 浏览 与 检索 ;通过 用 户 所 使 用 的 查询 历史 记录 分 析 ,提高 用 户 的 检索 效果 ( 查 全 
率 、 查 准 率 )。 

由 于 Web 上 存在 大 量 信息 ,并 且 Web 在 当今 社会 生活 中 扮演 越 来 越 重 要 的 角色 ,发 挥 
越 来 越 大 的 作用 ,因此 Web 挖掘 的 应 用 将 越 来 越 广泛 ,用 户 对 高 品质 ,个 性 化 信息 的 需求 也 
将 进一步 推动 Web 挖掘 这 项 技术 的 研究 和 开发 。 


11.3 空间 数据 挖掘 


通过 遥感 ,地 理 信息 系统 、 医 学 和 卫星 图 像 等 多 种 数据 采集 设备 收集 到 了 大 量 的 空间 数 
据 , 这 些 空间 数据 远 远 超 过 了 人 脑 的 分 析 能 力 。 空 间 数 据 不 同 于 关系 数据 , 它 一 般 具 有 空间 
拓扑 或 距离 信息 ,通常 需要 以 复杂 的 多 维 空间 索引 结构 组 织 ,另外 空间 数据 的 处 理 还 常常 需 
要 空间 推理 .几何 计算 和 空间 知识 表示 技术 。 这 些 特性 使 得 从 空间 数据 中 挖掘 信息 具有 很 
多 挑战 性 。 


11.3.1 空间 数据 的 复杂 性 特征 


空间 数据 的 复杂 性 特征 主要 表现 在 以 下 几 个 方面 。 

1. 空间 属性 之 间 的 非 线性 关系 

空间 属性 之 间 的 非 线 性 关系 是 空间 系统 复杂 性 的 重要 标志 ,其 中 蕴含 着 系统 内 部 运作 
的 复杂 机 制 ,因而 被 作为 空间 数据 挖掘 的 主要 任务 之 一 。 

2. 空间 数据 的 多 尺度 特征 

空间 数据 的 多 尺度 性 是 指 空间 数据 在 不 同 观察 层次 上 所 遵循 的 规律 以 及 体现 出 不 尽 相 
同 的 特征 。 多 尺度 特征 是 空间 数据 复杂 性 的 又 一 表现 形式 ,利用 该 性 质 可 以 探究 空间 信息 
在 泛 化 和 细 化 过 程 中 所 反映 出 的 特征 渐变 规律 。 

3. 空间 信息 的 模糊 性 

空间 数据 复杂 性 的 另 一 个 特征 就 是 模糊 性 。 模 糊 性 几乎 存在 于 各 种 类 型 的 空间 信息 
中 ,如 空间 位 置 的 模糊 性 、 空 间 相 关 性 的 模糊 性 以 及 模糊 的 属性 值 等 。 

4. 空间 维 数 的 增高 

空间 数据 的 属性 增加 极为 迅速 ,如 在 遥感 领域 .由 于 传 感 技术 的 飞速 发 展 ,波段 的 数目 
也 由 几 个 增加 到 几 十 甚至 上 百 个 ,如 何 从 几 十 甚至 几 百 维 空间 中 提取 信息 、 发 现 知识 成 为 研 
究 中 的 又 一 难点 。 

5. 空间 数据 的 缺 值 

数据 的 缺 值 现象 源 自 于 某 种 不 可 抗拒 的 外 力 而 使 数据 无 法 获得 或 发 生 丢失 。 如 何 对 丢 
失 数据 进行 恢复 并 估计 数据 的 固有 分 布 参数 ,成 为 解决 数据 复杂 性 的 难点 。 


11.3.2 空间 数据 挖掘 的 定义 


空间 数据 挖掘 是 指 在 空间 数据 库 的 基础 上 ,综合 利用 各 种 技术 方法 ,从 大 量 的 空间 数据 

中 自动 挖掘 事先 未 知 的 且 潜在 有 用 的 知识 ,提取 非 显 式 存在 的 空间 关系 或 其 他 有 意义 的 模 

式 等 ,揭示 出 蕴含 在 数据 背后 的 客观 世界 的 本 质 规律 .内 在 联系 和 发 展 趋势 ,实现 知识 的 自 

动 获 取 , 从 而 提供 技术 决策 与 经 营 决策 的 依据 。 它 可 以 用 来 理解 或 重组 空间 数据 ,发 现 空间 
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和 非 空 间 数据 间 的 关系 .构建 空间 知识 库 、 优 化 查询 等 。 
11.3.3 空间 数据 挖掘 知识 的 类 型 


空间 数据 挖掘 知识 的 类 型 主要 包括 以 下 几 种 。 

一 般 几何 知识 。 目 标的 数量 、 大 小 、 特 征 的 统计 特征 值 及 直方 图 等 可 视 化 描述 。 

空间 分 布 规律 。 垂 直 向 ,水 平 向 及 其 联合 向 的 分 布 规律 。 

空间 关联 规则 。 空 间 相 邻 .相连 、 共 生 、 包 含 等 空间 关联 规则 。 

另外 还 包括 空间 聚 类 规则 、 空 间 特 征 规则 、 空 间 区 分 规则 、 空 间 演 变 规则 、 空 间 序 贯 模 
式 、 空 间 混 沌 模式 。 


11.3.4 空间 数据 挖掘 的 用 途 


空间 数据 挖掘 在 生产 生活 实践 中 有 着 众多 应 用 ,下 面 通过 举例 简单 说 明 空 间 数 据 分 类 、 
空间 数据 关联 分 析 空间 趋势 分 析 等 的 应 用 。 

(1) 空间 数据 分 类 。 企 业 在 确定 销售 地 点 分 布 时 ,往往 需要 根据 人 口 的 家 庭 收入 、 接 受 
教育 水 平等 因素 对 全 国 、 全 球 进 行 地 区 分 类 。 此 时 ,就 需要 找 出 决定 地 区 分 类 的 空间 因素 。 
例如 大 中 学 校 高 速 公路 、 服 务 设施 等 特性 。 通 过 对 这 些 特 性 的 分 析 找 出 有 意义 的 分 类 模 
式 , 为 企业 寻找 新 的 销售 点 提供 合适 的 模式 。 

(2) 空间 数据 关联 分 析 。 同 普通 的 关联 规则 挖掘 一 样 ,空间 数据 也 可 以 进行 关联 规则 
挖掘 。 例 如 气象 数据 仓库 就 是 一 种 典型 的 空间 数据 仓库 ,人 们 可 以 利用 气象 数据 仓库 中 的 
数据 挖掘 与 气象 有 关 的 生产 活动 规则 。 例 如 ,农业 生产 ,交通 运输 等 生产 活动 与 气象 的 关联 
规则 。 

(3) 空间 趋势 的 分 析 。 在 分 析 一 个 地 区 经 济 发 展 与 周边 空间 环境 的 变化 趋势 时 ,需要 
用 到 空间 数据 趋势 挖掘 。 例 如 ,在 进行 地 区 经 济 发 展 规划 时 ,希望 能 够 寻找 到 合适 的 模式 ， 
地 区 经 济 发 展 的 不 同 模式 与 大 中 城市 的 联系 ,与 交通 的 关联 等 。 这 种 空间 趋势 分 析 ,一 般 需 
要 在 空间 数据 结构 和 空间 数据 访问 的 基础 之 上 ,使 用 回归 或 者 相关 分 析 方法 进行 。 


11.4 多 媒体 数据 挖掘 


11.4.1 多 媒体 数据 挖掘 的 概念 


多 媒体 数据 挖掘 指 从 大 量 的 图 像 .视频 、 音 频 等 多 媒体 数据 集中 ,通过 分 析 视 听 特 征 语 
义 ,发 现 隐 含 的 有 效 的 有 价值 的 .可 以 理解 的 模式 ,为 用 户 提供 问题 层次 的 决策 支持 能 力 。 

多 媒体 数据 挖掘 与 计算 机 视角 图 像 处 理 的 区 别 是 ,前 者 的 焦点 是 从 多 媒体 中 抽取 一 定 
的 模式 ,后 者 的 焦点 是 从 单个 图 像 中 分 析 和 提取 特定 的 特征 。 

传统 的 数据 挖掘 与 多 媒体 数据 挖掘 的 区 别 是 ,前 者 处 理 的 是 关系 数据 库 的 结构 化 数据 ， 
后 者 处 理 的 是 非 结 构 化 的 多 媒体 数据 ,多 媒体 的 时 间 、 空 间 、 视 听 对 象 .运动 特征 是 多 维 的 ， 
模式 的 表示 是 建立 在 丰富 的 视觉 环境 下 。 


11.4.2 多 媒体 挖掘 的 分 类 


按 处 理 的 媒体 数据 进行 分 类 ,可 分 为 以 下 3 种 。 
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(1) 图 像 数 据 挖掘 。 从 图 像 的 视觉 和 空间 特征 中 抽取 有 意义 的 语义 信息 , 即 知识 。 其 
根本 的 问题 在 于 将 低层 特征 如 何 关联 转换 为 高 层 对 象 和 语义 概念 。 

(2) 视频 数据 挖掘。 从 含有 图 像 视觉 和 空间 特性 、 时 间 特 性 、 视 频 对 象 特性 、 运 动 特性 
等 的 内 容 获 取 有 意义 的 知识 。 如 从 交通 监视 视频 中 分 析出 交通 拥塞 的 趋势 。 

(3) 音频 数据 挖掘 。 从 听觉 特性 中 的 基 音 、 音 调 , 旋 律 . 音 频 事件 和 对 象 的 结构 中 挖掘 
出 隐 含 在 音频 流 中 的 信息 线索 .规律 和 特性 。 


小 结 


在 现实 生活 中 ,存在 着 诸如 文本 数据 、 空 间 数据 、 多 媒体 数据 等 形式 的 复杂 结构 数据 ,如 
何 对 这 些 复杂 结构 数据 进行 数据 挖掘 是 数据 挖掘 的 研究 热点 。 本 章 对 复杂 结构 数据 挖掘 进 
行 了 简要 介绍 ,其 中 关于 文本 数据 挖掘 介绍 了 文本 数据 的 特点 ,文本 挖掘 的 定义 ,主要 任务 、 
一 般 过 程 及 其 应 用 ;关于 Web 挖掘 介绍 了 Web 数据 的 特点 、Web 挖掘 的 定义 、 分 类 .一般 过 
程 及 其 应 用 ;关于 空间 数据 挖掘 介绍 了 空间 数据 的 复杂 特性 、 空 间 数 据 挖掘 的 定义 、 类 型 和 
主要 用 途 ; 关 于 多 媒体 挖掘 则 简要 介绍 了 概念 和 分 类 。 


习题 11 


1. 非 结构 数据 挖掘 和 结构 数据 挖掘 有 何 异 同 ? 

2. 请 比较 Web 挖掘 的 3 种 方法 的 特点 。 

3. 请 说 明 Web 内 容 挖掘 和 Web 结构 挖掘 的 任务 。 

4. 多 媒体 数据 挖掘 的 概念 、 分 类 和 体系 结构 。 

5. 请 简 述 一 下 空间 数据 挖掘 的 概念 、 分 类 和 体系 结构 。 
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